LLM 시대의 추천 시스템과 검색 — 실제로 뭐가 바뀌었나
YouTube, Spotify, Netflix, LinkedIn이 LLM을 추천/검색에 적용한 방법과 결과
Eugene Yan이 정리한 내용을 기반으로, LLM이 추천/검색을 바꾸는 네 가지 축을 살펴본다.
1. LLM/멀티모달 강화 아키텍처
기존 추천 모델은 아이템 ID를 기반으로 동작한다. 유저 A가 아이템 123, 456을 봤으니 789를 추천하는 식이다. 문제는 새 아이템(콜드 스타트)이나 인기 없는 아이템(롱테일)에 대한 정보가 없다는 것.
LLM과 멀티모달 모델은 이걸 해결한다. 아이템의 텍스트, 이미지, 오디오 정보를 이해하니까.
YouTube의 Semantic ID — 해시 기반 ID 대신 콘텐츠에서 파생된 ID를 쓴다. Transformer로 비디오 임베딩을 만들고, RQ-VAE로 정수 형태의 Semantic ID로 변환한다. 콜드 스타트 시나리오에서 N-gram/SentencePiece 기반 접근이 특히 잘 먹혔다.
Kuaishou의 M3CSR — 비주얼(ResNet), 텍스트(Sentence-BERT), 오디오(VGGish) 임베딩을 합쳐서 K-means로 클러스터링한 뒤 학습 가능한 ID로 바꾼다. A/B 테스트 결과 클릭 +3.4%, 좋아요 +3.0%, 팔로우 +3.1%.
Google의 CALRec — PaLM-2 XXS를 추천에 미세 조정했다. 텍스트 프롬프트로 유저-아이템 상호작용을 모델링한다. 다중 카테고리 사전 학습 → 특정 카테고리 미세 조정의 2단계 구조. Amazon Review Dataset에서 기존 모델 대비 성능 우위.
Meta의 EmbSum — T5-small과 Mixtral-8x22B로 유저 관심사와 후보 아이템을 각각 요약한 뒤 매칭한다. 세션 기반 그룹화와 요약 손실이 성능에 크게 기여.
2. LLM 기반 데이터 생성
데이터 부족 문제를 LLM으로 해결하는 방향이다. 직접 추천하는 게 아니라, 추천 시스템이 먹을 데이터를 만들어주는 역할.
Bing — GPT-4로 웹페이지의 타이틀과 요약을 생성. 200만 페이지의 메타데이터로 Mistral-7B를 미세 조정. 결과: 클릭베이트 31% 감소, 중복 76% 감소, 권위 있는 콘텐츠 18% 증가.
Indeed — GPT-3.5를 미세 조정해서 저품질 구인-구직 매칭을 필터링하는 모델(eBadMatch)을 만들었다. GPT-4 수준 성능을 유지하면서 비용은 훨씬 낮다. 매칭 초대 이메일 17.68% 감소, 구독 취소 4.97% 감소, 신청률 4.13% 증가.
Yelp — RAG로 검색 쿼리를 세분화하고, LLM으로 리뷰 하이라이트를 생성. 롱테일 쿼리에서도 성능 개선.
Spotify — 직접적인 검색 결과 외에 탐색형 쿼리 추천을 도입. Doc2query, InPars 같은 LLM 기반 문장 생성 기법으로 쿼리를 생성한 뒤 개인화된 벡터 임베딩으로 랭킹. 탐색형 쿼리 +9%, 쿼리 길이 +30%.
Amazon — Flan-T5-XL로 커뮤니티 재생목록의 메타데이터를 생성. 검색 재현율이 두 자릿수 개선.
3. Scaling Laws, 전이 학습, 증류, LoRA
LLM 세계의 핵심 기법들이 추천 시스템에도 적용되기 시작했다.
Scaling Laws — Decoder-only Transformer로 98.3K ~ 0.8B 파라미터 범위를 실험. 큰 모델일수록 교차 엔트로피 손실이 줄어든다. 작은 모델은 데이터가 더 많이 필요하지만, 큰 모델은 적은 데이터로도 성능이 나온다.
YouTube의 지식 증류 — 교사 모델(2~4배 큰 모델)의 지식을 학생 모델에 전달. 보조 증류 전략으로 분포 이동 문제를 해결해서 +0.4% 성능 개선. 추천에서 0.4%는 꽤 큰 수치다.
DLLM2Rec — LLM의 추천 지식을 경량 모델에 증류. 추론 시간이 교사 모델의 3~6시간 → 1.6~1.8초로 줄어들면서 평균 성능 47.97% 개선.
Alibaba의 MLoRA — CTR 예측에 도메인별 LoRA를 적용. 공통 백본을 사전 학습하고 도메인별로 LoRA 미세 조정. CTR +1.49%, 전환율 +3.37%.
Pinterest — 한 에포크에서 과적합이 발생하는 문제를 대조 학습으로 해결. 홈피드 +1.32%, 관련 핀 +2.18%.
Netflix의 슬라이딩 윈도우 — 긴 유저 히스토리를 메모리 부담 없이 학습. 에포크마다 다른 세그먼트를 선택하면서 최신 100개 상호작용과 장기 상호작용을 균형 있게 사용. MAP +1.5%, recall +7.01%.
4. 검색과 추천의 통합
원래 검색과 추천은 별개의 시스템이다. 검색은 쿼리 → 결과, 추천은 유저 이력 → 결과. LLM이 둘을 합치는 흐름이 생겼다.
Spotify — Flan-T5-base로 검색과 추천을 하나의 생성 모델에서 학습. 단일 태스크 대비 평균 16% 성능 개선. 다만 기존 특화 모델(BM25, SASRec 등) 수준에는 아직 못 미친다.
LinkedIn의 360Brew — 150B 파라미터 Mixtral-8x22B 기반 단일 모델로 30개 이상의 랭킹 태스크를 처리한다. 피처 엔지니어링 대신 프롬프트 엔지니어링. 기존 특화 모델과 동등하거나 더 나은 성능. 콜드 스타트 유저에서 특히 강하다.
Netflix의 UniCoRn — 검색과 추천을 하나의 모델에서 처리. 유저 ID, 검색 쿼리, 국가 등 컨텍스트를 통합해서 추천 +10%, 검색 +7%.
Etsy의 Unified Embeddings — Transformer, 텍스트(T5), 그래프 임베딩을 통합. 그래프 임베딩이 성능에 가장 크게 기여(+15%). 전환율 +2.63%, 유기 검색 구매율 +5.58%.
YouTube의 User Behavioral Service — 유저 임베딩 생성 모델과 추천 모델을 분리해서 비동기로 동작. 유저 시퀀스 모델 크기를 키워도 비용 증가가 28.7% → 2.8%로 억제.
그래서 뭘 가져갈 수 있나
2023년 초기 연구는 "LLM이 추천도 할 수 있을까?" 수준이었다. 2025년은 다르다. YouTube, Netflix, LinkedIn, Spotify 모두 프로덕션에서 결과를 내고 있다.
패턴이 보인다. LLM을 직접 추천 모델로 쓰기보다는, (1) 데이터를 생성하거나, (2) 지식을 경량 모델에 증류하거나, (3) 멀티모달 이해를 추가하는 방식이 실용적이다. 비용과 지연 시간 때문에 LLM을 실시간 서빙에 직접 넣기는 아직 어렵다.
가장 빠르게 써먹을 수 있는 건 LLM 기반 데이터 생성이다. 메타데이터 강화, 쿼리 생성, 저품질 필터링 — 기존 파이프라인을 거의 안 건드리고도 효과를 볼 수 있다.
동작 원리
LLM/멀티모달로 콜드 스타트 해결 — Semantic ID, 멀티모달 임베딩 + 클러스터링
LLM으로 데이터 생성 — 메타데이터 강화, 쿼리 생성, 저품질 필터링
지식 증류로 LLM 지식을 경량 모델에 이전 — 추론 시간 수천 배 단축
LoRA로 도메인별 미세 조정 — 공통 백본 + 도메인 어댑터
검색과 추천 통합 — 하나의 모델로 쿼리 기반 + 이력 기반 태스크 동시 처리
장점
- ✓ 콜드 스타트/롱테일 해결 — 멀티모달 이해로 새 아이템도 추천 가능
- ✓ 데이터 품질 향상 — LLM이 메타데이터, 쿼리, 필터를 자동 생성
- ✓ 통합 아키텍처 — 검색/추천을 하나로 합쳐서 유지보수 비용 절감
- ✓ 증류로 실용화 — LLM 수준 성능을 서빙 가능한 크기로 압축
단점
- ✗ 지연 시간 — LLM 직접 서빙은 실시간 추천에 아직 무겁다
- ✗ 통합 모델이 특화 모델을 항상 이기진 않는다 — BM25, SASRec이 여전히 강한 영역
- ✗ GPU 인프라 비용 — 학습과 데이터 생성에 상당한 컴퓨팅 리소스 필요