LLM時代の推薦システムと検索 — 実際に何が変わったか
YouTube、Spotify、Netflix、LinkedInがLLMを推薦/検索に適用した方法と結果
Eugene Yanの分析に基づき、LLMが推薦/検索を変える4つの軸を見る。
1. LLM/マルチモーダル強化アーキテクチャ
従来の推薦モデルはアイテムIDベースで動作する。ユーザーAがアイテム123、456を見たから789を推薦する式。問題は新アイテム(コールドスタート)や不人気アイテム(ロングテール)の情報がないこと。
LLMとマルチモーダルモデルはアイテムのテキスト、画像、オーディオ情報を理解してこれを解決する。
YouTubeのSemantic ID — ハッシュベースIDの代わりにコンテンツ由来IDを使用。TransformerでビデオEmbeddingを作り、RQ-VAEで整数形式のSemantic IDに変換。コールドスタートでN-gram/SentencePieceベースが特に効果的。
KuaishouのM3CSR — ビジュアル(ResNet)、テキスト(Sentence-BERT)、オーディオ(VGGish)Embeddingを統合しK-meansクラスタリング後、学習可能なIDに変換。A/Bテスト:クリック+3.4%、いいね+3.0%、フォロー+3.1%。
GoogleのCALRec — PaLM-2 XXSを推薦用に微調整。テキストプロンプトでユーザー-アイテム相互作用をモデリング。
MetaのEmbSum — T5-smallとMixtral-8x22Bでユーザー関心とアイテムをそれぞれ要約しマッチング。
2. LLMベースのデータ生成
直接推薦するのではなく、推薦システムが食べるデータを作る役割。
Bing — GPT-4でWebページのタイトル/要約を生成。200万ページでMistral-7Bを微調整。クリックベイト-31%、重複-76%、権威あるコンテンツ+18%。
Indeed — GPT-3.5を微調整して低品質求人マッチングをフィルタリング(eBadMatch)。招待メール-17.68%、退会-4.97%、応募+4.13%。
Spotify — 探索型クエリ推薦を導入。LLM生成クエリを個人化ベクトルでランキング。探索型クエリ+9%。
3. Scaling Laws、転移学習、蒸留、LoRA
LLM世界の核心技法が推薦システムにも適用され始めた。
Scaling Laws — Decoder-only Transformerで98.3K〜0.8Bパラメータ範囲を実験。大きいモデルほどデータが少なくても性能が出る。
YouTube知識蒸留 — 教師モデル(2〜4倍大きい)の知識を生徒モデルに転送。+0.4%改善(推薦では大きな数値)。
DLLM2Rec — LLMの推薦知識を軽量モデルに蒸留。推論時間:3〜6時間 → 1.6〜1.8秒。平均性能+47.97%。
AlibabaのMLoRA — CTR予測にドメイン別LoRA適用。CTR+1.49%、コンバージョン+3.37%。
4. 検索と推薦の統合
LinkedInの360Brew — 150BパラメータMixtralベース単一モデルで30以上のランキングタスクを処理。特徴エンジニアリングの代わりにプロンプトエンジニアリング。
NetflixのUniCoRn — 検索と推薦を1つのモデルで処理。推薦+10%、検索+7%。
EtsyのUnified Embeddings — Transformer + T5テキスト + グラフEmbeddingを統合。グラフEmbeddingが最大寄与(+15%)。
何を持ち帰れるか
パターンが見える。LLMを直接推薦モデルとして使うより、(1)データ生成、(2)軽量モデルへの知識蒸留、(3)マルチモーダル理解の追加が実用的。最も即効性があるのはLLMベースのデータ生成 — メタデータ強化、クエリ生成、品質フィルタリングは既存パイプラインをほぼ触らずに効果を出せる。
動作原理
LLM/マルチモーダルでコールドスタート解決 — Semantic ID、マルチモーダルEmbedding+クラスタリング
LLMでデータ生成 — メタデータ強化、クエリ生成、低品質フィルタリング
知識蒸留でLLM知識を軽量モデルに移転 — 推論時間を数千倍短縮
LoRAでドメイン別微調整 — 共通バックボーン+ドメインアダプター
検索と推薦の統合 — 1つのモデルでクエリベース+履歴ベースタスクを同時処理
メリット
- ✓ コールドスタート/ロングテール解決 — マルチモーダル理解で新アイテムも推薦可能
- ✓ データ品質向上 — LLMがメタデータ、クエリ、フィルターを自動生成
- ✓ 統合アーキテクチャ — 検索/推薦を1つにまとめて保守コスト削減
- ✓ 蒸留で実用化 — LLMレベル性能をサービング可能なサイズに圧縮
デメリット
- ✗ レイテンシ — LLM直接サービングはリアルタイム推薦にはまだ重い
- ✗ 統合モデルが特化モデルに常に勝つわけではない — BM25、SASRecが依然強い領域あり
- ✗ GPUインフラコスト — 学習とデータ生成に相当なコンピューティングリソースが必要