Wikipedia 記事をクリーンな Markdown に: AI 研究のための 2026 年ワークフロー
Wikipedia 記事をクリーンな Markdown に: AI 研究のための 2026 年ワークフロー
Wikipedia は AI 補助研究合成の標準的な第一次ソースです。無料で、包括的、よく引用され、継続的に更新されます。直接 LLM 入力として使う際の問題: レンダリング HTML が引用番号脚注、navbox、インフォボックステンプレート、編集リンク、インライン参考文献で重く — 通常、ページバイトの 35-50% は非コンテンツです。
本記事は、そのノイズをストリップして Claude / GPT-5.5 / DeepSeek R2 が本質だけを見るワークフローです。
生の Wikipedia HTML が LLM にどう見えるか
典型的な Wikipedia 記事 HTML:
- ヘッダーナビゲーション: メニュー + 検索 + ログインで 1,500 tokens
[edit]リンク、[1]引用バッジ、<sup>脚注 ref が散在する記事本文: コンテンツ 8,000 tokens + マークアップノイズ 2,000 tokens- インフォボックステンプレート: 200+ の rowspan/colspan セルを持つ HTML テーブル
- "参考文献" セクション: 脚注テキストと引用 URL で 4,000-6,000 tokens
- "関連項目", "推薦する読書", "外部リンク": リンクリスト純で 1,500 tokens
- Cookie バナー, "プライバシーポリシー" フッター: 800 tokens
合計: 実際 10-12k トークンの記事に対して ~18-20k tokens。これを Claude にそのまま貼ると、context 予算の 40% を Wikipedia chrome で無駄にします。
クリーン Markdown 抽出の出力
Web2MD の Wikipedia 抽出器の出力:
# Transformer (機械学習モデル)
> 2017 年に導入された深層学習モデルアーキテクチャ。マルチヘッド注意機構に
> 基づく。再帰アーキテクチャとは異なり、入力データを並列処理する。
**ソース**: https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
**最終更新**: 2026-05-28
## インフォボックス
| フィールド | 値 |
|---|---|
| 導入 | 2017 |
| 論文 | "Attention Is All You Need" (Vaswani 他) |
| 主要な革新 | Self-attention メカニズム |
| 注目すべき応用 | BERT, GPT ファミリー, T5, Claude, ... |
## 背景
トランスフォーマー以前、シーケンス処理モデルは...
[引用 1]: 元論文、https://arxiv.org/abs/1706.03762 にアーカイブ
## アーキテクチャ
トランスフォーマーは...で構成される
## 参考文献
[1] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need.
arXiv preprint arXiv:1706.03762.
[2] ...
同じ記事で約 12k tokens。引用は下部のクリーンな番号付き参考文献として保持。インフォボックスは Markdown テーブルとして読める。数式は LaTeX に戻される。chrome なし、nav なし、編集リンクなし。
ワークフロー
3 つのパス:
パス 1: Web2MD 拡張 (インタラクティブ)
Chrome で Wikipedia 記事を開く。Web2MD をクリック。Wikipedia 専用抽出器が:
- 記事タイプ (概念, 人物, 場所, イベント, ...) を検出
- タイトル, サマリー, インフォボックス, 本文セクションを取得
- 見出し階層を Markdown レベル (## / ### / ####) として保持
- 引用バッジを下部のクリーン参考文献リストに変換
- KaTeX/MathJax の数式を TeX ソースに戻す
- 構造が許容なら GFM Markdown テーブルに変換
- navbox, 編集リンク, "この記事を改善してください" プロンプトをストリップ
出力は Claude に貼り付け or Obsidian/Notion に保存可能。エンドツーエンド: 記事 1 件あたり ~5 秒。
パス 2: Wikipedia API + カスタム Markdown フォーマッター
研究パイプライン構築の開発者向け:
import requests
import re
def wiki_to_markdown(title, lang="ja"):
# Wikipedia API を使う、最もクリーンなソース
url = f"https://{lang}.wikipedia.org/w/api.php"
params = {
"action": "query", "format": "json",
"prop": "extracts|info", "titles": title,
"explaintext": True, "inprop": "url"
}
r = requests.get(url, params=params)
page = next(iter(r.json()["query"]["pages"].values()))
md = f"# {page['title']}\n\n**ソース**: {page['fullurl']}\n\n"
md += page["extract"] # 既に事前クリーニングされたテキスト抽出
return md
explaintext: True で HTML なしの事前クリーニングテキストバージョン取得。HTML スクレイピングより速いが、テーブルとインフォボックスは失う。「散文だけ取りたい」パイプラインに良い。
パス 3: バルク研究コーパス用
import requests, asyncio
async def fetch_articles(titles, lang="ja"):
# Wikipedia API は呼び出しあたり最大 50 タイトルをサポート
chunks = [titles[i:i+50] for i in range(0, len(titles), 50)]
out = []
for chunk in chunks:
params = {
"action": "query", "format": "json", "prop": "extracts",
"titles": "|".join(chunk), "explaintext": True
}
r = requests.get(f"https://{lang}.wikipedia.org/w/api.php", params=params)
for page in r.json()["query"]["pages"].values():
out.append((page["title"], page.get("extract", "")))
return out
HTTP リクエストあたり 50 記事、レート制限内に余裕。200 件の研究コーパスを 2 分で構築。
実例: クロス概念研究合成
私は 4 つの異なる研究伝統 (情報理論, 統計力学, ニューラルネット, 動的システム) が「複雑性」という似た概念に収束する様子のプライマーを書く必要がありました。ソース:
- 中核 Wikipedia 記事 20 件 (Shannon エントロピー, Kolmogorov 複雑性, 自由エネルギー, アトラクター盆地 等)
- 基礎思想家の Wikipedia 伝記 10 件
- 特定の応用の Wikipedia 記事 5 件
35 件の記事。Web2MD キュー経由のバルク Markdown エクスポート: ~6 分。合計: ~180k tokens。Claude Opus 4.7 に合成プロンプト付き貼り付け。Claude は特定の Wikipedia セクションへの引用付き 12 ページのプライマーを生成、編集と検証用に。
合計時間: ~90 分、LLM 前なら 3 日の読書 + 執筆プロジェクトだった内容。
このワークフローに不適なケース
- リアルタイムの事実確認。Wikipedia は抽出時刻のスナップショット。ニュースアクティブなトピックでは記事が毎日変わる。最新イベントには各セッション前に再抽出。
- 原典研究。Wikipedia は三次資料 — 二次文献の百科事典的サマリー。重要な研究主張には引用リンクを一次ソースまで辿りそれも抽出。
- ニッチ専門知識。Wikipedia のカバレッジ品質は大きく変動。専門分野には分野固有の百科事典や arXiv を補完。
- 論争中のトピック。編集戦争のある記事では表面のテキストがコンセンサスを反映しないことも。Talk ページを確認するか、複数ソースを使う。
クロスランゲージ研究のための多言語 Wikipedia
Wikipedia は 300+ 言語に存在し、コンテンツの重なりと相違が大きい。多言語研究用に:
- 英語: https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
- 中文: https://zh.wikipedia.org/wiki/变换器_(机器学习)
- 日本語: https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
- ドイツ語: https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)
すべて同じ抽出器が動く。中文 Wikipedia は DeepSeek R2 と組み合わせて token 効率的に処理 — 中文 Wikipedia は DeepSeek の tokenizer で Claude の ~30% 安。
他の研究ワークフローとの組み合わせ
Wikipedia + 他のソースが本当に価値を発揮します:
- Reddit + Wikipedia: 確立された知識に Wikipedia、ユーザー経験と最近の議論に Reddit
- YouTube トランスクリプト: Wikipedia と同じトピックの講義と講演; 重ねた理解
- 1M コンテキストクラスタ: 100+ 記事を一度のプロンプトに、複数ドメイン合成
クイックウィン
既に Web2MD を使っているなら、Wikipedia 記事を開いて拡張をクリック。Wikipedia 専用抽出器が上で示した出力を生成。無料版 3 回/日; Pro でキュー解禁。
dev ワークフローには Wikipedia API + 20 行の Python (上記) でバッチジョブの大部分をカバー。
関連記事
- なぜ Claude は Reddit を読めないのか
- Claude の 1M コンテキストウィンドウの埋め方
- LLM token コスト削減: 6 つの実践方法
- Markdown vs HTML: AI に良い回答をさせるには?
- Wikipedia を Markdown に変換 — サポートサイトページ
インストール
無料 3 回/日。Pro $9/月で無制限 + バルクキュー (一回のエクスポートで 50+ 記事) + インフォボックス/引用/数式処理付き専用 Wikipedia 抽出器。