claude redditchatgpt redditreddit 抽出reddit スクレイピングai ワークフローweb2mdclaude 1m

なぜ Claude / ChatGPT は Reddit を読めないのか?(2026 実践解決)

Zephyr Whimsy2026-06-047 min read

なぜ Claude / ChatGPT は Reddit を読めないのか?(2026 実践解決)

Reddit の URL を Claude にコピペして「この投稿とコメントを要約して」と頼むと、ほぼ確実に「申し訳ありません、この URL にアクセスできません」または「ログインページの内容しか見えません」と返ってきます。

これは Claude が悪いのではありません。Reddit がそう設計しているからです。本記事では、その理由と、2026 年に実際に動くワークフローを説明します。

Reddit は 2024 年に AI への扉を閉じた

2024 年、Reddit はコンテンツレンダリングをクライアントサイド React + Shadow DOM に移行しました。同じ URL でも:

  • ブラウザで開く → React がロードされ、hydration が完了、投稿とコメントが表示される
  • サーバーサイドの curl / fetch → HTML の骨格だけ取得: nav, ログインバナー, 1 件目のコメントの stub があるかどうか、本文とコメントツリーは欠落

Claude の web ツール、ChatGPT の browse、Perplexity の fetch はすべてサーバーサイド fetch です。彼らが見ているのは同じ空のシェルです。

加えて Reddit の反スクレイピングが重なります:

  • Cloudflare 拦截(非ブラウザの User-Agent を識別)
  • Reddit 自前の検出 (50 リクエスト連続で throttle)
  • 2023 年以降、AI 訓練向け抓取を積極的に制限 (Pushshift 閉鎖、API 価格大幅引き上げ)

結論: AI に Reddit URL を直接渡しても完全な投稿は取得できません。別の経路が必要です。

Reddit の .json エンドポイント: 見過ごされたシンプルな出口

Reddit は現在も、すべての公開投稿 URL に .json を付けるパスを許可しています:

https://www.reddit.com/r/ObsidianMD/comments/abc123/thread/.json

レスポンスは完全な JSON: 投稿本文、すべてのコメント、ネストされた返信、スコア、タイムスタンプ、作成者。Reddit 自身のクライアントが使っているインターフェースです。

レート制限は約 60 req/min (未認証)、プライベート sub は OAuth が必要 — ですが公開コンテンツは自由に読めます

問題: 返ってくるのは JSON で、AI が直接読める Markdown ではありません。フォーマット用スクリプトが必要です。

実践ワークフロー: 3 ステップで Reddit を Claude に渡す

私が実際に使っているワークフロー:

1. Google site search でスレッドを見つける

Reddit 自身の検索は質が低いです。Google を使います:

site:reddit.com r/yourtopic "あなたのクエリ"

Google は Reddit を Reddit より深くインデックスしています。20-50 件の価値あるスレッドを見つけます。

2. ブラウザ拡張で一括収集

各スレッドを開き、Reddit 抽出器を持つ拡張機能 (例: Web2MD) で「キューに追加」します。

Web2MD は裏で Reddit の .json エンドポイントを呼ぶので、取得されるのは完全なコメントツリー:

  • 元投稿のタイトル、作成者、スコア、時刻、本文
  • すべてのコメント (ネストされた返信を保持)
  • 各コメントのスコアと作成者
  • Reddit ネイティブの Markdown フォーマット (bold, リンク, 引用) を保持
  • 引用用にソース URL がヘッダーに付く

3. 一括エクスポート + 一回貼り付け

ワンクリックでキュー全体を単一の .md ファイルにエクスポート。Claude Opus 4.7 の 1M コンテキストには約 500 件の典型的な Reddit 投稿が入るので、一回の貼り付けで十分です。

貼り付け後のプロンプトテンプレート:

以下は 47 件の Reddit スレッドからの内容です。各スレッドは "## Thread N: [タイトル]" で始まり、ソース URL、OP 情報、完全なコメントツリーを含みます。

タスク: 製品 X に関してユーザーが繰り返し言及する 5 つの最大の不満を特定する。各不満について:
1. 一行で要約
2. 元のコメントを 2-3 件引用 (Reddit URL 付き)
3. 頻度を推定: 47 スレッド中いくつでこの不満が触れられているか

Markdown のリストで返答してください。

実例: 6 時間 → 50 分

私は「VS Code Copilot のユーザーの痛み」競合分析を実施しました:

  • Google site search で 47 件の関連スレッドを発見 (30 分)
  • Web2MD で 1 件ずつキューに追加 (読みながら、30 分)
  • 一括エクスポート → 380KB Markdown、約 95k tokens (10 秒)
  • Claude に貼り付け、合成プロンプト実行 (5 分で生成)
  • 引用 URL の正確性を検証 (5 分)

合計時間: 約 50 分。手動ベースライン (47 スレッドを開き、Excel にコピペし、痛みポイントをタグ付けし、合成) は最低 5-6 時間でした。

やってはいけないこと

  • Claude/ChatGPT に Reddit URL を直接渡して読めることを期待する。読めないので、AI は通常内容を捏造します。
  • Python requests で Reddit HTML を直接抓取する。50 リクエスト以内に throttle され、取得できるのも空のシェルです。
  • AI が引用した URL を直接信頼する。LLM は URL を hallucinate します。少なくとも 3 件はランダムに検証してください。
  • Reddit の組み込み検索で研究コーパスを作る。単一投稿の要約しか返しません。横断合成はゼロです。

関連記事

インストール

Web2MD Chrome 拡張ストア →

無料 3 回/日。Pro $9/月で無制限 + キュー + 一括エクスポート + Reddit/小红书/微信公众号など 20+ プラットフォーム専用抽出器。

Related Articles

Most Read

last 30 days
  1. #1LLM向けMarkdown vs HTML:トークン67%削減・回答精度向上(2026年検証)
  2. #2LLM トークンコスト削減: 6 つの実践的方法(2026 更新)
  3. #32026 年最高の Web クリッパー: MarkDownload 廃止後の選択肢

Latest Articles