YouTube 영상 자동화 오픈소스 총정리
쇼츠 자동 생성부터 캐릭터 애니메이션까지 — GitHub 프로젝트 모음
YouTube 영상을 자동으로 만들어주는 오픈소스 도구들이 2024~2025년 사이에 폭발적으로 늘어났다. 대부분 Python 기반이고, AI API를 조합해서 "주제 입력 → 완성 영상 출력"까지 자동화한다.
크게 세 가지 카테고리로 나뉜다.
1. 쇼츠/숏폼 자동 생성
주제나 키워드를 넣으면 대본 → 이미지/영상 소싱 → 나레이션 → 자막 → 업로드까지 한 번에 처리하는 파이프라인형 도구들. MoneyPrinter(12k+ stars)가 대표적이고, ShortGPT, Shortrocity 등이 있다.
2. 캐릭터 애니메이션/상황극
대본을 넣으면 2D/3D 캐릭터가 립싱크하며 대화하는 영상을 자동 생성하는 도구들. Synctoon이 가장 실용적이고, LivePortrait, EchoMimic은 초상화 기반 애니메이션에 특화되어 있다.
3. 교육/설명 영상 자동화
Manim 기반으로 수학·과학 교육 애니메이션을 텍스트에서 자동 생성하는 도구들. Generative Manim, topic2manim 등이 있다.
아래 details_html에서 전체 목록을 확인할 수 있다.
쇼츠/숏폼 자동 생성
| 프로젝트 | 설명 | 기술 스택 | Stars | 비용 |
|---|---|---|---|---|
| MoneyPrinter | 주제 입력 → 대본 + Pexels 스톡 영상 + TTS 나레이션 + 자막 자동 생성. Ollama(로컬 LLM) 우선이라 API 비용 제로. Docker 큐 시스템으로 배치 처리 가능 | Ollama, MoviePy, Pexels, Docker | 12.3k | 무료 |
| MoneyPrinterV2 | V1 완전 리라이트. YouTube Shorts + Twitter 콘텐츠 동시 자동화. JSON 설정 기반 CLI | Python, YouTube/Twitter API | 12.7k | 무료 |
| ShortGPT | 쇼츠/롱폼/번역 3개 엔진 제공. Gradio 웹 UI 있음. LLM 기반 영상 편집 언어 내장 | OpenAI, ElevenLabs, Pexels, Gemini | 6.2k | 유료 API |
| youtube-shorts-pipeline | 리서치 → 대본 → AI 이미지 → 나레이션 → 단어별 하이라이트 자막 → BGM ducking → 업로드 전자동. 반환각 프로토콜 적용 | Claude, Gemini Imagen, ElevenLabs, Whisper | 171 | ~$0.11 |
| short-video-maker | MCP(Model Context Protocol) 지원. Kokoro TTS(오픈웨이트) 사용으로 유료 API 키 불필요. n8n 등 AI 에이전트와 연동 가능 | Node.js, Kokoro TTS, Pexels, MCP | ~940 | 무료 |
| Shortrocity | ChatGPT 대본 + DALL-E 3 배경 이미지 + ElevenLabs/OpenAI TTS + 단어별 하이라이트 자막(Captacity). youtube-shorts-pipeline과 구조가 유사 | ChatGPT, DALL-E 3, ElevenLabs, Whisper | - | 유료 API |
| SaarD00/Shorts-Gen | Gemini 2.0 Flash 대본 + Suno Bark TTS + Pexels 영상. Kurzgesagt/Vox 스타일 대본 구조(Hook→Context→Mechanism→Twist). A/B 스플릿 비주얼 | Gemini, Bark, Pexels, Edge-TTS | - | 저렴 |
| Viral-Faceless | Google Trends에서 자동 토픽 수집 → Gemini 대본 → Coqui TTS(무료) → Docker 원클릭 배포. 웹 트리거 UI 제공 | Gemini, Coqui TTS, Docker, Nginx | - | 무료 |
| dejesusbg/shorts | Gemini API 하나로 전부 처리 — 이미지(Imagen 3), 대본, BGM 생성까지. API 의존성 최소 | Gemini API only, Docker | - | 저렴 |
| auto-shorts | 웹 UI(Next.js) 제공. AI 프로바이더 자유 전환 — Ollama(무료)/OpenAI/Gemini/Claude 선택 가능 | Next.js, Ollama/OpenAI/Gemini/Claude | - | 무료 옵션 |
| ai-video-generator | 스토리 기반 영상 생성. 100% 로컬/무료 — Ollama LLM + Docker. 모델 캐시로 2회차부터 빠름 | Ollama, Docker, FFmpeg | - | 무료 |
| AutoShortsAI | 완전 자동 파일럿 모드 — 매일 자동으로 영상 생성 + YouTube/TikTok에 자동 포스팅. 스케줄링 기능 내장 | GPT-4, Stable Diffusion, YouTube/TikTok API | - | 유료 API |
캐릭터 애니메이션 / 상황극
| 프로젝트 | 설명 | 기술 스택 | 특징 |
|---|---|---|---|
| Synctoon | 텍스트 대본 → 2D 캐릭터 애니메이션 자동 생성. 음성 기반 립싱크, 머리 움직임, 눈 표정까지 자동. 복수 캐릭터 대화 지원 | Google GenAI, 음소 립싱크, FFmpeg | 상황극 최적 |
| LivePortrait | 사진 1장 → 살아 움직이는 초상화 애니메이션. 쿠아이쇼우/틱톡/WeChat 등 프로덕션급 채택 | PyTorch, 딥러닝 포트레이트 | 프로덕션급 |
| EchoMimic | 오디오 → 초상화 립싱크 애니메이션. 음성/랜드마크 듀얼 입력 지원. V3는 1.3B 파라미터로 경량화 | PyTorch, 오디오 드리븐 애니메이션 | 립싱크 특화 |
| Hallo2 | 오디오 기반 초상화 애니메이션. 장시간·고해상도 출력 지원. ICLR 2025 논문 | PyTorch, 계층적 오디오-비주얼 합성 | 장시간 대응 |
| Story-to-Video | 텍스트 파일 → ChatGPT로 이미지 시퀀스 생성 → gTTS 나레이션 → 영화풍 애니메이션. 가볍고 단순 | ChatGPT, gTTS, Pillow | 가장 심플 |
| Talking Avatar | 대화형 디지털 휴먼 — 말하고 듣는 아바타. GPT 응답 + Whisper 음성 인식 + ElevenLabs TTS + 실시간 립싱크 | GPT, Whisper, ElevenLabs, Rhubarb | 인터랙티브 |
교육/설명 애니메이션
| 프로젝트 | 설명 | 기술 스택 |
|---|---|---|
| Generative Manim | 텍스트 설명 → GPT-4/Claude가 Manim 코드를 자동 생성 → 수학·과학 교육 애니메이션. 웹 앱 제공 | Manim, GPT-4/Claude, 웹 앱 |
| topic2manim | 주제 → 멀티 에이전트(Script/TTS/Code/Video Agent)가 나레이션 포함 교육 애니메이션 자동 생성. 6~8 씬 구조 | Manim, AI 멀티 에이전트 |
| Open-Sora 2.0 | 오픈소스 텍스트→영상 생성 모델(11B 파라미터). Sora급 퀄리티(VBench 0.69% 차이). 텍스트→영상 + 이미지→영상 모두 지원 | PyTorch, VAE + Transformer, 학습비 ~$200K |
빠른 선택 가이드
무료로 시작하고 싶다면
- MoneyPrinter — Ollama 로컬 LLM, 가장 인기 많음
- short-video-maker — Kokoro TTS, API 키 불필요
- Viral-Faceless — Docker 원클릭, Coqui TTS 무료
퀄리티를 높이고 싶다면
- youtube-shorts-pipeline — 반환각 프로토콜, $0.11/영상
- ShortGPT — 3개 엔진, 웹 UI, 번역까지
- SaarD00 — Kurzgesagt 스타일 대본 퀄리티
캐릭터 상황극을 만들고 싶다면
- Synctoon — 2D 캐릭터 대화, 립싱크 자동
- LivePortrait — 사진→애니메이션, 프로덕션급
- EchoMimic — 오디오 기반 립싱크 특화
교육 콘텐츠를 만들고 싶다면
- Generative Manim — 텍스트→수학 애니메이션
- topic2manim — 멀티 에이전트, 나레이션 포함
- Open-Sora — 텍스트→영상 (연구급)
실전 순서
목적 확인: 쇼츠 자동화? 캐릭터 상황극? 교육 애니메이션?
API 비용 vs 로컬 실행 선택: MoneyPrinter(무료/Ollama) vs youtube-shorts-pipeline($0.11/영상)
GitHub 레포 클론 → README의 설치 가이드 따라 환경 구축
API 키 발급 (필요한 경우) + ffmpeg 설치
테스트 영상 1개 생성해보고 퀄리티 확인 후 본격 운영
장점
- ✓ 대부분 무료 — 오픈소스 + 로컬 LLM 옵션 존재
- ✓ 파이프라인 커스터마이징 자유 (코드 수정 가능)
- ✓ 쇼츠부터 애니메이션까지 다양한 장르 커버
단점
- ✗ CLI 기반이 대부분 — 비개발자에게 진입장벽
- ✗ 프로젝트마다 유지보수 상태가 다름 (방치된 것도 있음)
- ✗ 한국어·일본어 지원이 제한적인 프로젝트가 많음