なぜ YouTube の自動トランスクリプトをそのまま Claude にコピーできないのか?

YouTube の自動トランスクリプトは句読点のない連続テキストで、数秒ごとにタイムスタンプが挟まれます。Claude は読めますが、その注意力の大部分を構造解析に費やし、内容理解に当てる予算が減ります。Token 的にもクリーンなトランスクリプト Markdown より 30-50% 高くつきます。

「クリーンな」YouTube トランスクリプト Markdown とはどのようなもの?

上部にタイトルとチャンネル名、タイムスタンプはセクションアンカー (## 00:00 トピック、## 12:30 次のトピック) として、各セクション内は連続した文章、複数話者の場合は話者ラベル (## インタビュー: ホスト vs ゲスト)、引用用に特定のタイムスタンプへのリンク。YouTube の生出力より約 40% 小さくなります。

ライブストリームや長尺ポッドキャストでも動くか?

はい — 実際にはより良い動作。3 時間のポッドキャストトランスクリプトはクリーンな Markdown で約 50k-80k tokens。Claude Opus 4.7 はそのようなトランスクリプトを 12 件以上 1M コンテキストに保持でき、クロスポッドキャスト合成が可能。Lex Fridman / Joe Rogan / 落合陽一 / 蓬莱亭などの長尺コンテンツでこのワークフローが本当に光ります。

字幕がない動画はどうする?

YouTube が自動字幕を生成しておらず、クリエイターも字幕をアップロードしていない場合、別の文字起こしツール (Whisper API ~$0.36/時間、ローカル Whisper.cpp は無料) でトランスクリプトを作成。その後、同じ Markdown クリーンアップワークフローを適用します。

コメントも一緒に取れるか?

はい — コメントには訂正、文脈、反論など Claude に一緒にフィードする価値ある情報が含まれることが多いです。Web2MD の YouTube 抽出器はトランスクリプトと上位コメント (スコア順) を同時に取得、別セクションとしてフォーマット。合わせた Markdown により Claude は元の動画だけでなく完全な discourse を見られます。

YouTube コンテンツを AI 研究用に変換することの法的位置づけは?

公開されているコンテンツを個人研究のために読むことは普通の使用です。YouTube の利用規約はライセンスなしの商用再配布とモデル訓練を制限しています。あなた個人の AI プロンプトに Markdown 抽出することは公正な研究の範囲、商用訓練パイプラインは別途ライセンス契約が必要です。

YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー

YouTube はオープン Web 上で最大の単一音声知識コーパスです。長尺インタビュー (Lex Fridman、Tim Ferriss、Acquired)、カンファレンス講演、チュートリアル深堀り、講義シリーズ — そのすべてが検索可能で無料で、本格的な AI 研究ワークフローではほとんど使われていません。ボトルネックはモデルではなく、YouTube からクリーンなトランスクリプトを取得して選んだ AI にフィードすること。

本記事は 90 分の講演を Claude や GPT-5.5 が実際に推論できる Markdown に変換するワークフローです。

なぜ YouTube トランスクリプトをそのまま使うのが難しいか

YouTube の「トランスクリプトを表示」をクリックして結果をコピーすると、次のようなものが得られます:

0:00 みなさん、本日のショーへようこそ、今日のテーマは
0:03 トランスフォーマーアーキテクチャと注意機構が
0:06 入力長に応じてどうスケールするか
0:09 基本的に押さえておくべきは

LLM 入力としての 3 つの問題:

Token の無駄: 3 秒ごとのタイムスタンプは 2-4 tokens。60 分の動画は約 3,000 tokens のタイムスタンプノイズを蓄積。
意味構造なし: 段落なし、セクションなし、話者ラベルなし。Claude は文章だけでトピック転換を推測する必要。
句読点なし: 自動生成トランスクリプトは句読点のない連続テキスト。文の境界は与えられず推測。

結果: token 非効率、推論しづらく、引用に使えない (「ホストが X と言ったタイムスタンプは?」)。

クリーンな YouTube Markdown とは

YouTube 専用抽出器を通した後:

# トランスフォーマーをわかりやすく解説
**チャンネル**: 3Blue1Brown · **長さ**: 45:12 · **公開**: 2026-04-15
**ソース**: https://www.youtube.com/watch?v=abc123

## 00:00 — 導入と動機

みなさん、本日のショーへようこそ。今日のテーマはトランスフォーマー
アーキテクチャと、注意機構が入力長に応じてどうスケールするか。基本的
に押さえておくべきは...

## 08:42 — Self-attention メカニズム

[適切な段落とセクション区切りで続く]

## 23:15 — Multi-head attention

...

## 38:50 — 実装

...

## トップコメント

- **@user1234** (👍 847): "12:30 の図でついに query/key/value ベクトルが実際に何を意味するかわかった — ありがとう!"
- **@user5678** (👍 412): "小さな訂正: 19:30 の乗算は Q*K ではなく QK^T では..."

生のトランスクリプトより約 40% 小さい。タイムスタンプはセクションアンカーとして保持され、特定の瞬間を引用可能。トップコメントが訂正と追加文脈のために含まれる。Claude はこれを読み、タイムスタンプ精度の引用付き正確な回答を生成します。

ワークフロー

3 つのパス、セットアップによって選択:

パス 1: Web2MD の YouTube 抽出器 (最も簡単)

YouTube 動画を Chrome で開きます。Web2MD をクリック。抽出器が以下を取得:

タイトル、チャンネル、長さ、公開日、説明
自動セクション区切り検出付き完全トランスクリプト
タイムスタンプを ## HH:MM — セクション見出し アンカーとして保持
いいね数順のトップコメント
Claude / ChatGPT に貼り付け可能なクリーン Markdown としてフォーマット

エンドツーエンド: 動画 1 件あたり約 8 秒。無料版は 3 動画/日、Pro は無制限。

パス 2: YouTube Transcript API + カスタムスクリプト

バッチ処理を望む開発者向け:

from youtube_transcript_api import YouTubeTranscriptApi
import re

def youtube_to_markdown(video_id):
    transcript = YouTubeTranscriptApi.get_transcript(video_id)

    # 約 5 分のセクションでグループ化
    sections = []
    current_section = {"start": 0, "text": []}
    for entry in transcript:
        if entry["start"] - current_section["start"] > 300:  # 5 分
            sections.append(current_section)
            current_section = {"start": entry["start"], "text": []}
        current_section["text"].append(entry["text"])
    sections.append(current_section)

    md = []
    for s in sections:
        mins = int(s["start"] // 60)
        secs = int(s["start"] % 60)
        md.append(f"## {mins:02d}:{secs:02d}")
        md.append(" ".join(s["text"]).replace("\n", " "))
        md.append("")
    return "\n".join(md)

バッチジョブ向け (コーパス用 100+ 動画)。コメントとメタデータは取れない — 必要なら YouTube Data API を追加。

パス 3: 字幕のない動画は Whisper を

字幕のないアップロード動画向け:

yt-dlp -x --audio-format mp3 <video_url>
whisper.cpp -m models/ggml-large-v3.bin -f audio.mp3 -of transcript -otxt

Whisper の出力に同じ Markdown クリーンアップを適用。OpenAI のホステッド API で時間あたり約 $0.36、M シリーズ Mac でローカル Whisper.cpp なら無料。

実例: 複数ポッドキャスト研究合成

先月、私は 3 つの異なる AI ポッドキャスト (Latent Space, Cognitive Revolution, No Priors) が 6 か月にわたって特定のアーキテクチャ選択をどう扱ったかを比較しました。

検索で関連する 15 エピソードを特定
Web2MD バッチエクスポート: 約 12 分
結果: 180 ページの Markdown コーパス、~140k tokens
Claude Opus 4.7 にプロンプト: "これらは 15 件のポッドキャストトランスクリプトです。各ホストが [X] というトピックにどうアプローチしたかを特定。時系列順にタイムスタンプ付き引用付き比較を表示。"
出力: 検証済みポッドキャスト時刻引用付き時系列比較

ワークフロー全体時間: 私が既に行ったリスニングを含めて約 80 分。手動のみの場合は週末丸ごと。

このワークフローでうまくいかないこと

限界について正直に:

動画を見ることの代替にはならない。デモ、コードウォークスルー、ビジュアルコンテンツが重要なものはトランスクリプトでは伝わらない。トーク中心 (インタビュー、講義、ポッドキャスト) に使う。
ライブストリームには非対応。スナップショットワークフロー。配信終了後にトランスクリプトを使う。
音楽や非音声音声には不適。Whisper は良いが、音声向けに設計されている。
商用訓練データには使えない。YouTube の規約はモデル訓練のための一括抽出を制限。個人研究と個別 AI プロンプトは OK、1000 万動画の訓練コーパス構築は NG。

他のワークフローとの組み合わせ

このワークフローは以下とよく組み合わせられます:

Reddit-to-Claude パイプライン: ポッドキャストに関する Reddit 議論 + トランスクリプト = 完全な discourse
Claude 1M コンテキストウィンドウの埋め方: 12 件のポッドキャストトランスクリプトは約 200k tokens — 余裕で入る
DeepSeek R2 + 中国コンテンツパイプライン: 中国のポッドキャストは Bilibili 上で同じワークフロー、Bilibili 専用抽出器で
LLM token コスト削減: クリーントランスクリプトは生のものより 40% コスト削減

インストール

Web2MD Chrome 拡張ストア →

無料 3 回/日。Pro $9/月で無制限 + キュー + 一括エクスポート + タイムスタンプアンカー付き専用 YouTube 抽出器。

YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー

YouTube トランスクリプトを Claude / ChatGPT 用の Markdown に: 2026 年のワークフロー

なぜ YouTube トランスクリプトをそのまま使うのが難しいか

クリーンな YouTube Markdown とは

ワークフロー

パス 1: Web2MD の YouTube 抽出器 (最も簡単)

パス 2: YouTube Transcript API + カスタムスクリプト

パス 3: 字幕のない動画は Whisper を

実例: 複数ポッドキャスト研究合成

このワークフローでうまくいかないこと

他のワークフローとの組み合わせ

関連記事

インストール

Related Articles

Extend Perplexity Research With Your Sources

".md This Page": How to Turn the Page You're On Into Markdown Instantly

r.jina.ai URL Prefix: How Jina Reader Works (and When It Fails) — 2026 Guide

Most Read

Latest Articles