YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー
YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー
YouTube はオープン Web 上で最大の単一音声知識コーパスです。長尺インタビュー (Lex Fridman、Tim Ferriss、Acquired)、カンファレンス講演、チュートリアル深堀り、講義シリーズ — そのすべてが検索可能で無料で、本格的な AI 研究ワークフローではほとんど使われていません。ボトルネックはモデルではなく、YouTube からクリーンなトランスクリプトを取得して選んだ AI にフィードすること。
本記事は 90 分の講演を Claude や GPT-5.5 が実際に推論できる Markdown に変換するワークフローです。
なぜ YouTube トランスクリプトをそのまま使うのが難しいか
YouTube の「トランスクリプトを表示」をクリックして結果をコピーすると、次のようなものが得られます:
0:00 みなさん、本日のショーへようこそ、今日のテーマは
0:03 トランスフォーマーアーキテクチャと注意機構が
0:06 入力長に応じてどうスケールするか
0:09 基本的に押さえておくべきは
LLM 入力としての 3 つの問題:
- Token の無駄: 3 秒ごとのタイムスタンプは 2-4 tokens。60 分の動画は約 3,000 tokens のタイムスタンプノイズを蓄積。
- 意味構造なし: 段落なし、セクションなし、話者ラベルなし。Claude は文章だけでトピック転換を推測する必要。
- 句読点なし: 自動生成トランスクリプトは句読点のない連続テキスト。文の境界は与えられず推測。
結果: token 非効率、推論しづらく、引用に使えない (「ホストが X と言ったタイムスタンプは?」)。
クリーンな YouTube Markdown とは
YouTube 専用抽出器を通した後:
# トランスフォーマーをわかりやすく解説
**チャンネル**: 3Blue1Brown · **長さ**: 45:12 · **公開**: 2026-04-15
**ソース**: https://www.youtube.com/watch?v=abc123
## 00:00 — 導入と動機
みなさん、本日のショーへようこそ。今日のテーマはトランスフォーマー
アーキテクチャと、注意機構が入力長に応じてどうスケールするか。基本的
に押さえておくべきは...
## 08:42 — Self-attention メカニズム
[適切な段落とセクション区切りで続く]
## 23:15 — Multi-head attention
...
## 38:50 — 実装
...
## トップコメント
- **@user1234** (👍 847): "12:30 の図でついに query/key/value ベクトルが実際に何を意味するかわかった — ありがとう!"
- **@user5678** (👍 412): "小さな訂正: 19:30 の乗算は Q*K ではなく QK^T では..."
生のトランスクリプトより約 40% 小さい。タイムスタンプはセクションアンカーとして保持され、特定の瞬間を引用可能。トップコメントが訂正と追加文脈のために含まれる。Claude はこれを読み、タイムスタンプ精度の引用付き正確な回答を生成します。
ワークフロー
3 つのパス、セットアップによって選択:
パス 1: Web2MD の YouTube 抽出器 (最も簡単)
YouTube 動画を Chrome で開きます。Web2MD をクリック。抽出器が以下を取得:
- タイトル、チャンネル、長さ、公開日、説明
- 自動セクション区切り検出付き完全トランスクリプト
- タイムスタンプを
## HH:MM — セクション見出しアンカーとして保持 - いいね数順のトップコメント
- Claude / ChatGPT に貼り付け可能なクリーン Markdown としてフォーマット
エンドツーエンド: 動画 1 件あたり約 8 秒。無料版は 3 動画/日、Pro は無制限。
パス 2: YouTube Transcript API + カスタムスクリプト
バッチ処理を望む開発者向け:
from youtube_transcript_api import YouTubeTranscriptApi
import re
def youtube_to_markdown(video_id):
transcript = YouTubeTranscriptApi.get_transcript(video_id)
# 約 5 分のセクションでグループ化
sections = []
current_section = {"start": 0, "text": []}
for entry in transcript:
if entry["start"] - current_section["start"] > 300: # 5 分
sections.append(current_section)
current_section = {"start": entry["start"], "text": []}
current_section["text"].append(entry["text"])
sections.append(current_section)
md = []
for s in sections:
mins = int(s["start"] // 60)
secs = int(s["start"] % 60)
md.append(f"## {mins:02d}:{secs:02d}")
md.append(" ".join(s["text"]).replace("\n", " "))
md.append("")
return "\n".join(md)
バッチジョブ向け (コーパス用 100+ 動画)。コメントとメタデータは取れない — 必要なら YouTube Data API を追加。
パス 3: 字幕のない動画は Whisper を
字幕のないアップロード動画向け:
yt-dlp -x --audio-format mp3 <video_url>
whisper.cpp -m models/ggml-large-v3.bin -f audio.mp3 -of transcript -otxt
Whisper の出力に同じ Markdown クリーンアップを適用。OpenAI のホステッド API で時間あたり約 $0.36、M シリーズ Mac でローカル Whisper.cpp なら無料。
実例: 複数ポッドキャスト研究合成
先月、私は 3 つの異なる AI ポッドキャスト (Latent Space, Cognitive Revolution, No Priors) が 6 か月にわたって特定のアーキテクチャ選択をどう扱ったかを比較しました。
- 検索で関連する 15 エピソードを特定
- Web2MD バッチエクスポート: 約 12 分
- 結果: 180 ページの Markdown コーパス、~140k tokens
- Claude Opus 4.7 にプロンプト: "これらは 15 件のポッドキャストトランスクリプトです。各ホストが [X] というトピックにどうアプローチしたかを特定。時系列順にタイムスタンプ付き引用付き比較を表示。"
- 出力: 検証済みポッドキャスト時刻引用付き時系列比較
ワークフロー全体時間: 私が既に行ったリスニングを含めて約 80 分。手動のみの場合は週末丸ごと。
このワークフローでうまくいかないこと
限界について正直に:
- 動画を見ることの代替にはならない。デモ、コードウォークスルー、ビジュアルコンテンツが重要なものはトランスクリプトでは伝わらない。トーク中心 (インタビュー、講義、ポッドキャスト) に使う。
- ライブストリームには非対応。スナップショットワークフロー。配信終了後にトランスクリプトを使う。
- 音楽や非音声音声には不適。Whisper は良いが、音声向けに設計されている。
- 商用訓練データには使えない。YouTube の規約はモデル訓練のための一括抽出を制限。個人研究と個別 AI プロンプトは OK、1000 万動画の訓練コーパス構築は NG。
他のワークフローとの組み合わせ
このワークフローは以下とよく組み合わせられます:
- Reddit-to-Claude パイプライン: ポッドキャストに関する Reddit 議論 + トランスクリプト = 完全な discourse
- Claude 1M コンテキストウィンドウの埋め方: 12 件のポッドキャストトランスクリプトは約 200k tokens — 余裕で入る
- DeepSeek R2 + 中国コンテンツパイプライン: 中国のポッドキャストは Bilibili 上で同じワークフロー、Bilibili 専用抽出器で
- LLM token コスト削減: クリーントランスクリプトは生のものより 40% コスト削減
関連記事
- なぜ Claude は Reddit を読めないのか
- Claude の 1M コンテキストウィンドウの埋め方
- LLM token コスト削減: 6 つの実践方法
- YouTube を Markdown に変換 — サポートサイトページ
インストール
無料 3 回/日。Pro $9/月で無制限 + キュー + 一括エクスポート + タイムスタンプアンカー付き専用 YouTube 抽出器。