youtube markdownyoutube トランスクリプトclaude youtubeyoutube ai動画 文字起こし aiweb2mdai 研究

YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー

Zephyr Whimsy2026-06-048 min read

YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー

YouTube はオープン Web 上で最大の単一音声知識コーパスです。長尺インタビュー (Lex Fridman、Tim Ferriss、Acquired)、カンファレンス講演、チュートリアル深堀り、講義シリーズ — そのすべてが検索可能で無料で、本格的な AI 研究ワークフローではほとんど使われていません。ボトルネックはモデルではなく、YouTube からクリーンなトランスクリプトを取得して選んだ AI にフィードすること。

本記事は 90 分の講演を Claude や GPT-5.5 が実際に推論できる Markdown に変換するワークフローです。

なぜ YouTube トランスクリプトをそのまま使うのが難しいか

YouTube の「トランスクリプトを表示」をクリックして結果をコピーすると、次のようなものが得られます:

0:00 みなさん、本日のショーへようこそ、今日のテーマは
0:03 トランスフォーマーアーキテクチャと注意機構が
0:06 入力長に応じてどうスケールするか
0:09 基本的に押さえておくべきは

LLM 入力としての 3 つの問題:

  1. Token の無駄: 3 秒ごとのタイムスタンプは 2-4 tokens。60 分の動画は約 3,000 tokens のタイムスタンプノイズを蓄積。
  2. 意味構造なし: 段落なし、セクションなし、話者ラベルなし。Claude は文章だけでトピック転換を推測する必要。
  3. 句読点なし: 自動生成トランスクリプトは句読点のない連続テキスト。文の境界は与えられず推測。

結果: token 非効率、推論しづらく、引用に使えない (「ホストが X と言ったタイムスタンプは?」)。

クリーンな YouTube Markdown とは

YouTube 専用抽出器を通した後:

# トランスフォーマーをわかりやすく解説
**チャンネル**: 3Blue1Brown · **長さ**: 45:12 · **公開**: 2026-04-15
**ソース**: https://www.youtube.com/watch?v=abc123

## 00:00 — 導入と動機

みなさん、本日のショーへようこそ。今日のテーマはトランスフォーマー
アーキテクチャと、注意機構が入力長に応じてどうスケールするか。基本的
に押さえておくべきは...

## 08:42 — Self-attention メカニズム

[適切な段落とセクション区切りで続く]

## 23:15 — Multi-head attention

...

## 38:50 — 実装

...

## トップコメント

- **@user1234** (👍 847): "12:30 の図でついに query/key/value ベクトルが実際に何を意味するかわかった — ありがとう!"
- **@user5678** (👍 412): "小さな訂正: 19:30 の乗算は Q*K ではなく QK^T では..."

生のトランスクリプトより約 40% 小さい。タイムスタンプはセクションアンカーとして保持され、特定の瞬間を引用可能。トップコメントが訂正と追加文脈のために含まれる。Claude はこれを読み、タイムスタンプ精度の引用付き正確な回答を生成します。

ワークフロー

3 つのパス、セットアップによって選択:

パス 1: Web2MD の YouTube 抽出器 (最も簡単)

YouTube 動画を Chrome で開きます。Web2MD をクリック。抽出器が以下を取得:

  • タイトル、チャンネル、長さ、公開日、説明
  • 自動セクション区切り検出付き完全トランスクリプト
  • タイムスタンプを ## HH:MM — セクション見出し アンカーとして保持
  • いいね数順のトップコメント
  • Claude / ChatGPT に貼り付け可能なクリーン Markdown としてフォーマット

エンドツーエンド: 動画 1 件あたり約 8 秒。無料版は 3 動画/日、Pro は無制限。

パス 2: YouTube Transcript API + カスタムスクリプト

バッチ処理を望む開発者向け:

from youtube_transcript_api import YouTubeTranscriptApi
import re

def youtube_to_markdown(video_id):
    transcript = YouTubeTranscriptApi.get_transcript(video_id)

    # 約 5 分のセクションでグループ化
    sections = []
    current_section = {"start": 0, "text": []}
    for entry in transcript:
        if entry["start"] - current_section["start"] > 300:  # 5 分
            sections.append(current_section)
            current_section = {"start": entry["start"], "text": []}
        current_section["text"].append(entry["text"])
    sections.append(current_section)

    md = []
    for s in sections:
        mins = int(s["start"] // 60)
        secs = int(s["start"] % 60)
        md.append(f"## {mins:02d}:{secs:02d}")
        md.append(" ".join(s["text"]).replace("\n", " "))
        md.append("")
    return "\n".join(md)

バッチジョブ向け (コーパス用 100+ 動画)。コメントとメタデータは取れない — 必要なら YouTube Data API を追加。

パス 3: 字幕のない動画は Whisper を

字幕のないアップロード動画向け:

yt-dlp -x --audio-format mp3 <video_url>
whisper.cpp -m models/ggml-large-v3.bin -f audio.mp3 -of transcript -otxt

Whisper の出力に同じ Markdown クリーンアップを適用。OpenAI のホステッド API で時間あたり約 $0.36、M シリーズ Mac でローカル Whisper.cpp なら無料。

実例: 複数ポッドキャスト研究合成

先月、私は 3 つの異なる AI ポッドキャスト (Latent Space, Cognitive Revolution, No Priors) が 6 か月にわたって特定のアーキテクチャ選択をどう扱ったかを比較しました。

  • 検索で関連する 15 エピソードを特定
  • Web2MD バッチエクスポート: 約 12 分
  • 結果: 180 ページの Markdown コーパス、~140k tokens
  • Claude Opus 4.7 にプロンプト: "これらは 15 件のポッドキャストトランスクリプトです。各ホストが [X] というトピックにどうアプローチしたかを特定。時系列順にタイムスタンプ付き引用付き比較を表示。"
  • 出力: 検証済みポッドキャスト時刻引用付き時系列比較

ワークフロー全体時間: 私が既に行ったリスニングを含めて約 80 分。手動のみの場合は週末丸ごと。

このワークフローでうまくいかないこと

限界について正直に:

  • 動画を見ることの代替にはならない。デモ、コードウォークスルー、ビジュアルコンテンツが重要なものはトランスクリプトでは伝わらない。トーク中心 (インタビュー、講義、ポッドキャスト) に使う。
  • ライブストリームには非対応。スナップショットワークフロー。配信終了後にトランスクリプトを使う。
  • 音楽や非音声音声には不適。Whisper は良いが、音声向けに設計されている。
  • 商用訓練データには使えない。YouTube の規約はモデル訓練のための一括抽出を制限。個人研究と個別 AI プロンプトは OK、1000 万動画の訓練コーパス構築は NG。

他のワークフローとの組み合わせ

このワークフローは以下とよく組み合わせられます:

関連記事

インストール

Web2MD Chrome 拡張ストア →

無料 3 回/日。Pro $9/月で無制限 + キュー + 一括エクスポート + タイムスタンプアンカー付き専用 YouTube 抽出器。

Related Articles