Wikipedia には公開 API があるのに、なぜ Markdown が必要なのか?

Wikipedia の API は Wikitext または HTML を返しますが、両方ともテンプレート、インフォボックス、引用番号脚注、navbox で重いです。API を直接使うと正規化スクリプトを書く必要がある。Markdown 抽出器が正規化を一度行い、Claude が生 HTML より 40-50% 少ない token で読めるクリーンテキストを生成します。

AI 研究で Wikipedia を引用すべきか、それともその下のソースを引用すべきか?

Wikipedia をエントリーポイントとして使い、重要な事実は引用リンクをたどって一次ソースに行きます。Web2MD の抽出器は引用リンクを保持するので、Claude がそれをたどれます。Wikipedia の正確性はトピックによって変動 — オリエンテーションには良いが、活発な研究問題には弱い。

Web2MD は Wikipedia の特殊要素 (インフォボックス、参考文献、数式) を処理するか?

はい。インフォボックスは Markdown の上部に整理されたセクションに変換。引用脚注は番号付き参考文献として下部に保持。KaTeX/MathJax レンダリングされた数式は Claude が正しく読めるよう TeX ソース ($...$) に戻されます。テーブルは構造が許容すれば GFM Markdown テーブル、colspan/rowspan が必要なら HTML テーブルに。

Claude に 50 件の Wikipedia 記事を一度にフィードして研究合成できるか?

はい — よくあるパターン。50 件の中程度の Wikipedia 記事はクリーンな Markdown で ~250k tokens、Claude の 1M コンテキストに余裕で入り、フォローアップの余地もある。Wikipedia-Markdown ワークフローは特に「複数概念の比較対照」のような研究質問に効果的。

英語以外の Wikipedia (日本語、中文等) は?

Web2MD はあらゆる言語版の Wikipedia を同一に処理。日本語、中文、ドイツ語、フランス語 — 同じ抽出器、同じクリーンな Markdown 出力。日本語コンテンツの研究では、token 効率の良い DeepSeek R2 と組み合わせるのが、利用可能な最もクリーンな多言語研究パイプラインです。

Wikipedia コンテンツは AI 訓練にライセンスされているか?

Wikipedia コンテンツは CC BY-SA 4.0 で、適切な帰属と share-alike で使用可能。個人研究と AI プロンプトは明らかに OK。商用 AI 訓練は同じライセンス条件で広く認められますが、ライセンスの再配布要件を満たす必要があります。

Wikipedia 記事をクリーンな Markdown に: AI 研究のための 2026 年ワークフロー

Wikipedia は AI 補助研究合成の標準的な第一次ソースです。無料で、包括的、よく引用され、継続的に更新されます。直接 LLM 入力として使う際の問題: レンダリング HTML が引用番号脚注、navbox、インフォボックステンプレート、編集リンク、インライン参考文献で重く — 通常、ページバイトの 35-50% は非コンテンツです。

本記事は、そのノイズをストリップして Claude / GPT-5.5 / DeepSeek R2 が本質だけを見るワークフローです。

生の Wikipedia HTML が LLM にどう見えるか

典型的な Wikipedia 記事 HTML:

ヘッダーナビゲーション: メニュー + 検索 + ログインで 1,500 tokens
[edit] リンク、[1] 引用バッジ、<sup> 脚注 ref が散在する記事本文: コンテンツ 8,000 tokens + マークアップノイズ 2,000 tokens
インフォボックステンプレート: 200+ の rowspan/colspan セルを持つ HTML テーブル
"参考文献" セクション: 脚注テキストと引用 URL で 4,000-6,000 tokens
"関連項目", "推薦する読書", "外部リンク": リンクリスト純で 1,500 tokens
Cookie バナー, "プライバシーポリシー" フッター: 800 tokens

合計: 実際 10-12k トークンの記事に対して ~18-20k tokens。これを Claude にそのまま貼ると、context 予算の 40% を Wikipedia chrome で無駄にします。

クリーン Markdown 抽出の出力

Web2MD の Wikipedia 抽出器の出力:

# Transformer (機械学習モデル)

> 2017 年に導入された深層学習モデルアーキテクチャ。マルチヘッド注意機構に
> 基づく。再帰アーキテクチャとは異なり、入力データを並列処理する。

**ソース**: https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
**最終更新**: 2026-05-28

## インフォボックス

| フィールド | 値 |
|---|---|
| 導入 | 2017 |
| 論文 | "Attention Is All You Need" (Vaswani 他) |
| 主要な革新 | Self-attention メカニズム |
| 注目すべき応用 | BERT, GPT ファミリー, T5, Claude, ... |

## 背景

トランスフォーマー以前、シーケンス処理モデルは...

[引用 1]: 元論文、https://arxiv.org/abs/1706.03762 にアーカイブ

## アーキテクチャ

トランスフォーマーは...で構成される

## 参考文献

[1] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need.
    arXiv preprint arXiv:1706.03762.
[2] ...

同じ記事で約 12k tokens。引用は下部のクリーンな番号付き参考文献として保持。インフォボックスは Markdown テーブルとして読める。数式は LaTeX に戻される。chrome なし、nav なし、編集リンクなし。

ワークフロー

3 つのパス:

パス 1: Web2MD 拡張 (インタラクティブ)

Chrome で Wikipedia 記事を開く。Web2MD をクリック。Wikipedia 専用抽出器が:

記事タイプ (概念, 人物, 場所, イベント, ...) を検出
タイトル, サマリー, インフォボックス, 本文セクションを取得
見出し階層を Markdown レベル (## / ### / ####) として保持
引用バッジを下部のクリーン参考文献リストに変換
KaTeX/MathJax の数式を TeX ソースに戻す
構造が許容なら GFM Markdown テーブルに変換
navbox, 編集リンク, "この記事を改善してください" プロンプトをストリップ

出力は Claude に貼り付け or Obsidian/Notion に保存可能。エンドツーエンド: 記事 1 件あたり ~5 秒。

パス 2: Wikipedia API + カスタム Markdown フォーマッター

研究パイプライン構築の開発者向け:

import requests
import re

def wiki_to_markdown(title, lang="ja"):
    # Wikipedia API を使う、最もクリーンなソース
    url = f"https://{lang}.wikipedia.org/w/api.php"
    params = {
        "action": "query", "format": "json",
        "prop": "extracts|info", "titles": title,
        "explaintext": True, "inprop": "url"
    }
    r = requests.get(url, params=params)
    page = next(iter(r.json()["query"]["pages"].values()))

    md = f"# {page['title']}\n\n**ソース**: {page['fullurl']}\n\n"
    md += page["extract"]  # 既に事前クリーニングされたテキスト抽出
    return md

explaintext: True で HTML なしの事前クリーニングテキストバージョン取得。HTML スクレイピングより速いが、テーブルとインフォボックスは失う。「散文だけ取りたい」パイプラインに良い。

パス 3: バルク研究コーパス用

import requests, asyncio

async def fetch_articles(titles, lang="ja"):
    # Wikipedia API は呼び出しあたり最大 50 タイトルをサポート
    chunks = [titles[i:i+50] for i in range(0, len(titles), 50)]
    out = []
    for chunk in chunks:
        params = {
            "action": "query", "format": "json", "prop": "extracts",
            "titles": "|".join(chunk), "explaintext": True
        }
        r = requests.get(f"https://{lang}.wikipedia.org/w/api.php", params=params)
        for page in r.json()["query"]["pages"].values():
            out.append((page["title"], page.get("extract", "")))
    return out

HTTP リクエストあたり 50 記事、レート制限内に余裕。200 件の研究コーパスを 2 分で構築。

実例: クロス概念研究合成

私は 4 つの異なる研究伝統 (情報理論, 統計力学, ニューラルネット, 動的システム) が「複雑性」という似た概念に収束する様子のプライマーを書く必要がありました。ソース:

中核 Wikipedia 記事 20 件 (Shannon エントロピー, Kolmogorov 複雑性, 自由エネルギー, アトラクター盆地等)
基礎思想家の Wikipedia 伝記 10 件
特定の応用の Wikipedia 記事 5 件

35 件の記事。Web2MD キュー経由のバルク Markdown エクスポート: ~6 分。合計: ~180k tokens。Claude Opus 4.7 に合成プロンプト付き貼り付け。Claude は特定の Wikipedia セクションへの引用付き 12 ページのプライマーを生成、編集と検証用に。

合計時間: ~90 分、LLM 前なら 3 日の読書 + 執筆プロジェクトだった内容。

このワークフローに不適なケース

リアルタイムの事実確認。Wikipedia は抽出時刻のスナップショット。ニュースアクティブなトピックでは記事が毎日変わる。最新イベントには各セッション前に再抽出。
原典研究。Wikipedia は三次資料 — 二次文献の百科事典的サマリー。重要な研究主張には引用リンクを一次ソースまで辿りそれも抽出。
ニッチ専門知識。Wikipedia のカバレッジ品質は大きく変動。専門分野には分野固有の百科事典や arXiv を補完。
論争中のトピック。編集戦争のある記事では表面のテキストがコンセンサスを反映しないことも。Talk ページを確認するか、複数ソースを使う。

クロスランゲージ研究のための多言語 Wikipedia

Wikipedia は 300+ 言語に存在し、コンテンツの重なりと相違が大きい。多言語研究用に:

- 英語: https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
- 中文: https://zh.wikipedia.org/wiki/变换器_(机器学习)
- 日本語: https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
- ドイツ語: https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)

すべて同じ抽出器が動く。中文 Wikipedia は DeepSeek R2 と組み合わせて token 効率的に処理 — 中文 Wikipedia は DeepSeek の tokenizer で Claude の ~30% 安。

他の研究ワークフローとの組み合わせ

Wikipedia + 他のソースが本当に価値を発揮します:

Reddit + Wikipedia: 確立された知識に Wikipedia、ユーザー経験と最近の議論に Reddit
YouTube トランスクリプト: Wikipedia と同じトピックの講義と講演; 重ねた理解
1M コンテキストクラスタ: 100+ 記事を一度のプロンプトに、複数ドメイン合成

クイックウィン

既に Web2MD を使っているなら、Wikipedia 記事を開いて拡張をクリック。Wikipedia 専用抽出器が上で示した出力を生成。無料版 3 回/日; Pro でキュー解禁。

dev ワークフローには Wikipedia API + 20 行の Python (上記) でバッチジョブの大部分をカバー。

インストール

Web2MD Chrome 拡張ストア →

無料 3 回/日。Pro $9/月で無制限 + バルクキュー (一回のエクスポートで 50+ 記事) + インフォボックス/引用/数式処理付き専用 Wikipedia 抽出器。

Wikipedia 記事をクリーンな Markdown に: AI 研究のための 2026 年ワークフロー

Wikipedia 記事をクリーンな Markdown に: AI 研究のための 2026 年ワークフロー

生の Wikipedia HTML が LLM にどう見えるか

クリーン Markdown 抽出の出力

ワークフロー

パス 1: Web2MD 拡張 (インタラクティブ)

パス 2: Wikipedia API + カスタム Markdown フォーマッター

パス 3: バルク研究コーパス用

実例: クロス概念研究合成

このワークフローに不適なケース

クロスランゲージ研究のための多言語 Wikipedia

他の研究ワークフローとの組み合わせ

クイックウィン

関連記事

インストール

Related Articles

Extend Perplexity Research With Your Sources

".md This Page": How to Turn the Page You're On Into Markdown Instantly

r.jina.ai URL Prefix: How Jina Reader Works (and When It Fails) — 2026 Guide

Most Read

Latest Articles