Transformer 기반 추천

Self-Attention으로 유저 행동 시퀀스 전체를 한 번에

SASRec(2018)이 대표적이다. Transformer의 Self-Attention을 추천시스템에 처음 적용한 모델.

GRU4Rec과 목표는 같다 — 다음 아이템 예측. 차이는 방법론에 있다.

GRU vs Transformer

GRU는 시퀀스를 앞에서부터 순서대로 처리한다. 10번째 아이템의 표현에 1번째 아이템 정보가 도달하려면 9번의 hidden state 전달이 필요하다. 정보가 희석된다.

Transformer는 모든 위치가 모든 위치에 직접 attention한다. 10번째 아이템이 1번째를 직접 참조할 수 있다. 장기 의존성에 강하고, GPU 병렬화도 훨씬 유리하다.

실제 적용

Alibaba, JD.com 등 대형 EC 사이트에서 GRU4Rec을 Transformer 기반으로 교체하면서 CTR이 유의미하게 올랐다는 보고가 있다. 다만 모델이 커지면 서빙 레이턴시가 이슈가 된다.

동작 원리

1

아이템 시퀀스에 Position Encoding 추가

2

Multi-Head Self-Attention으로 아이템 간 관계 학습

3

Feed-Forward + Layer Norm으로 표현 정제

4

마지막 위치의 출력으로 다음 아이템 예측

장점

  • 장기 의존성을 직접 포착 (GRU 대비 강점)
  • GPU 병렬화로 학습 속도 빠름

단점

  • Attention의 O(n²) 복잡도 — 시퀀스가 길면 비용 증가
  • 서빙 레이턴시 관리가 GRU보다 까다로움

사용 사례

대규모 EC 사이트의 실시간 추천 동영상 플랫폼의 \"다음 영상\" 추천

참고 자료