🎭

BERT4Rec

Masked Language Modelを推薦に適用 — 穴埋めでユーザーの好みを学習

SASRecは左→右の単方向attentionを使う。BERT4Rec（2019, Sun et al.）は双方向だ。

系列[A, B, C, D, E]でCを[MASK]に置き換え、A, B, D, E全てを参考にCを当てる方式。BERTがテキストでやっていたことと全く同じ。

SASRec: A → B → C → ?（右側のみ予測）
BERT4Rec: A → ? → C → D（両側の文脈を活用）

双方向が直感的に強そうだが、実際のサービングでは「次のアイテム予測」が必要なため、推論時には最後の位置をマスキングする方式に変換する必要がある。

学習はランダム位置マスキング、サービングは最後の位置予測。このgapが性能に影響し得る。最近はこの問題を緩和する変種が出ている。

動作原理

ユーザー行動系列のランダム位置を[MASK]に置換

双方向Transformerでマスクされたアイテムを予測

双方向文脈が表現に反映される

サービング時は最後の位置をマスクして次のアイテムを予測

ユーザー履歴から欠落した好みアイテムを復元 Eコマースセッション内の次クリック予測