🔢

埋め込み（Embedding）とは何か

計算するには数値化が必要 — すべてのAIの出発点

コンピュータは「猫」と「犬」が似ていることを知らない。文字列が違うから。埋め込みはこの問題を解く — 意味が似ているものは近い数値に、違うものは遠い数値に変換する。

「猫」 → [0.82, -0.15, 0.41, ...]
「犬」 → [0.79, -0.12, 0.38, ...]
「車」 → [-0.33, 0.67, -0.21, ...]

猫と犬のベクトルは近く、車は遠い。埋め込みとはこれだけのことだ。

「単語をベクトルに変換したい」 — これが埋め込みという目的だ。その方法が時代ごとに変わる。

統計ベース（埋め込み以前）：

ニューラルネットベース（2013〜）：

Transformerベース（2018〜）：

自前学習は自分のデータからベクトルを作る。ドメインに最適化されるが、数万件以上のデータが必要。

事前学習済みモデル（OpenAIなど）は学習済みモデルにテキストを送ってベクトルを受け取る。データが少なくても使え、多言語も自動対応。ほとんどのプロジェクトはここから始めればいい。

動作原理

非構造データ（テキスト、画像など）を入力

埋め込みモデルが固定サイズの数値ベクトルに変換

ベクトル間距離（コサイン類似度など）で類似性を測定

近いベクトル = 意味的に似ているもの

検索 — クエリと文書の意味的マッチング推薦 — ユーザーとアイテムのベクトル距離で好みを予測分類 — ベクトルを入力に感情分析、スパム検出クラスタリング — 似たベクトル同士をグルーピング