https://www.youtube.com/@LifeUpdateRadio
タイムチャプター
00:00- イントロ:久しぶりの収録とVibe Codingの近況
00:34- 動画自動生成プログラムの構成(Perplexity × Gemini × ずんだもん)
01:41- YouTube自動投稿のハードルと仕様変更への対応
02:30- LLMの特性:AIは「質問したこと」にしか答えないという気づき
03:52- APIコスト管理と、開発プロセスへの手動介入の必要性
05:14- Geminiからの提案:モジュール化によるクリーンなコード設計
07:01- 人間に求められる「問いを立てる力」と一歩引いた視点
08:24- 最新情報検索におけるPerplexityの優位性と活用の継続
概要文
今回のエピソードでは、隙間時間を利用した「Vibe Coding」による、YouTube動画制作の完全自動化プロジェクトについて深掘りします。
制作者が現在取り組んでいるのは、Perplexityで最新情報をリサーチし、Geminiで台本を要約・作成、そして「ずんだもん」と「四国めたん」の対話形式で動画を自動生成するという、極めて高度なオートメーションフローです。ボタン一つで動画ファイルからサムネイル、概要文、タイトルまでが生成される仕組みをPythonで構築しています。
トークの核心は、開発過程で直面した「AIとの対話の限界と可能性」にあります。APIの従量課金を抑えつつ、クオリティを担保するために「手動介入」のステップを設けようとした際、AI(Gemini)から提示されたのは、単なる機能追加ではなく、プログラム自体の「モジュール化」という本質的な解決策でした。
「AIは気が利かないわけではないが、指示されたことの枠組みでしか動かない」。この気づきから、人間がAIを使いこなすために必要なのは、目の前の実装に没頭するだけでなく、一歩引いてシステム全体を俯瞰する「問いを立てる力」であると結論づけています。
また、情報の鮮度が求められるリサーチにおけるPerplexityの有用性や、FFmpegを用いた動画合成、API連携の苦労など、技術的な知見と哲学的な考察が交差する内容となっています。「習うより慣れろ」を地で行く、実践的なAI活用論をぜひお楽しみください。
ハッシュタグ
#VibeCoding #Gemini #Perplexity #AI自動化 #Python #ずんだもん #VOICEVOX #プログラミング #API #LLM
参考リンク
Gemini - Google DeepMind
https://deepmind.google/technologies/gemini/
Perplexity AI
https://www.perplexity.ai/
VOICEVOX 公式サイト
https://voicevox.hiroshiba.jp/
FFmpeg 公式サイト
https://ffmpeg.org/