なぜ Claude / ChatGPT は Reddit を読めないのか?(2026 実践解決)
なぜ Claude / ChatGPT は Reddit を読めないのか?(2026 実践解決)
Reddit の URL を Claude にコピペして「この投稿とコメントを要約して」と頼むと、ほぼ確実に「申し訳ありません、この URL にアクセスできません」または「ログインページの内容しか見えません」と返ってきます。
これは Claude が悪いのではありません。Reddit がそう設計しているからです。本記事では、その理由と、2026 年に実際に動くワークフローを説明します。
Reddit は 2024 年に AI への扉を閉じた
2024 年、Reddit はコンテンツレンダリングをクライアントサイド React + Shadow DOM に移行しました。同じ URL でも:
- ブラウザで開く → React がロードされ、hydration が完了、投稿とコメントが表示される
- サーバーサイドの curl / fetch → HTML の骨格だけ取得: nav, ログインバナー, 1 件目のコメントの stub があるかどうか、本文とコメントツリーは欠落
Claude の web ツール、ChatGPT の browse、Perplexity の fetch はすべてサーバーサイド fetch です。彼らが見ているのは同じ空のシェルです。
加えて Reddit の反スクレイピングが重なります:
- Cloudflare 拦截(非ブラウザの User-Agent を識別)
- Reddit 自前の検出 (50 リクエスト連続で throttle)
- 2023 年以降、AI 訓練向け抓取を積極的に制限 (Pushshift 閉鎖、API 価格大幅引き上げ)
結論: AI に Reddit URL を直接渡しても完全な投稿は取得できません。別の経路が必要です。
Reddit の .json エンドポイント: 見過ごされたシンプルな出口
Reddit は現在も、すべての公開投稿 URL に .json を付けるパスを許可しています:
https://www.reddit.com/r/ObsidianMD/comments/abc123/thread/.json
レスポンスは完全な JSON: 投稿本文、すべてのコメント、ネストされた返信、スコア、タイムスタンプ、作成者。Reddit 自身のクライアントが使っているインターフェースです。
レート制限は約 60 req/min (未認証)、プライベート sub は OAuth が必要 — ですが公開コンテンツは自由に読めます。
問題: 返ってくるのは JSON で、AI が直接読める Markdown ではありません。フォーマット用スクリプトが必要です。
実践ワークフロー: 3 ステップで Reddit を Claude に渡す
私が実際に使っているワークフロー:
1. Google site search でスレッドを見つける
Reddit 自身の検索は質が低いです。Google を使います:
site:reddit.com r/yourtopic "あなたのクエリ"
Google は Reddit を Reddit より深くインデックスしています。20-50 件の価値あるスレッドを見つけます。
2. ブラウザ拡張で一括収集
各スレッドを開き、Reddit 抽出器を持つ拡張機能 (例: Web2MD) で「キューに追加」します。
Web2MD は裏で Reddit の .json エンドポイントを呼ぶので、取得されるのは完全なコメントツリー:
- 元投稿のタイトル、作成者、スコア、時刻、本文
- すべてのコメント (ネストされた返信を保持)
- 各コメントのスコアと作成者
- Reddit ネイティブの Markdown フォーマット (bold, リンク, 引用) を保持
- 引用用にソース URL がヘッダーに付く
3. 一括エクスポート + 一回貼り付け
ワンクリックでキュー全体を単一の .md ファイルにエクスポート。Claude Opus 4.7 の 1M コンテキストには約 500 件の典型的な Reddit 投稿が入るので、一回の貼り付けで十分です。
貼り付け後のプロンプトテンプレート:
以下は 47 件の Reddit スレッドからの内容です。各スレッドは "## Thread N: [タイトル]" で始まり、ソース URL、OP 情報、完全なコメントツリーを含みます。
タスク: 製品 X に関してユーザーが繰り返し言及する 5 つの最大の不満を特定する。各不満について:
1. 一行で要約
2. 元のコメントを 2-3 件引用 (Reddit URL 付き)
3. 頻度を推定: 47 スレッド中いくつでこの不満が触れられているか
Markdown のリストで返答してください。
実例: 6 時間 → 50 分
私は「VS Code Copilot のユーザーの痛み」競合分析を実施しました:
- Google site search で 47 件の関連スレッドを発見 (30 分)
- Web2MD で 1 件ずつキューに追加 (読みながら、30 分)
- 一括エクスポート → 380KB Markdown、約 95k tokens (10 秒)
- Claude に貼り付け、合成プロンプト実行 (5 分で生成)
- 引用 URL の正確性を検証 (5 分)
合計時間: 約 50 分。手動ベースライン (47 スレッドを開き、Excel にコピペし、痛みポイントをタグ付けし、合成) は最低 5-6 時間でした。
やってはいけないこと
- Claude/ChatGPT に Reddit URL を直接渡して読めることを期待する。読めないので、AI は通常内容を捏造します。
- Python requests で Reddit HTML を直接抓取する。50 リクエスト以内に throttle され、取得できるのも空のシェルです。
- AI が引用した URL を直接信頼する。LLM は URL を hallucinate します。少なくとも 3 件はランダムに検証してください。
- Reddit の組み込み検索で研究コーパスを作る。単一投稿の要約しか返しません。横断合成はゼロです。
関連記事
インストール
無料 3 回/日。Pro $9/月で無制限 + キュー + 一括エクスポート + Reddit/小红书/微信公众号など 20+ プラットフォーム専用抽出器。