Wikipedia 文章转干净 Markdown 用于 AI 研究:2026 工作流
Wikipedia 文章转干净 Markdown 用于 AI 研究:2026 工作流
Wikipedia 是 AI 辅助研究合成的经典第一手来源。免费、全面、引用充足、持续更新。直接作为 LLM 输入的问题:渲染 HTML 里满是引用编号脚注、navbox、infobox 模板、编辑链接、内联参考文献 — 通常页面字节的 35-50% 是非内容。
本文是把噪声剥离,让 Claude / GPT-5.5 / DeepSeek R2 只看到本质的工作流。
原始 Wikipedia HTML 在 LLM 看来是什么
典型 Wikipedia 文章的 HTML:
- 页头导航:菜单 + 搜索 + 登录共 1,500 tokens
- 文章正文,掺杂
[edit]链接、[1]引用徽章、<sup>脚注 ref:内容 8,000 tokens + 标记噪声 2,000 tokens - Infobox 模板渲染为带 200+ rowspan/colspan 单元格的 HTML 表格
- "参考文献" section:脚注文本和引用 URL 共 4,000-6,000 tokens
- "另见", "扩展阅读", "外部链接":纯链接列表共 1,500 tokens
- Cookie 横幅、"隐私政策" 页脚:800 tokens
共:~18-20k tokens,而真正的内容只有 10-12k。直接贴 Claude 浪费 40% context 预算给 Wikipedia chrome。
干净 Markdown 抽取的输出
Web2MD Wikipedia 提取器的输出:
# Transformer (机器学习模型)
> 2017 年引入的深度学习模型架构,基于多头注意力机制。与递归架构不同,
> 并行处理输入数据。
**来源**: https://zh.wikipedia.org/wiki/变换器_(机器学习)
**最后更新**: 2026-05-28
## Infobox
| 字段 | 值 |
|---|---|
| 引入 | 2017 |
| 论文 | "Attention Is All You Need" (Vaswani 等) |
| 关键创新 | Self-attention 机制 |
| 著名应用 | BERT, GPT 系列, T5, Claude, ... |
## 背景
Transformer 之前,序列处理模型依赖...
[引用 1]: 原论文,归档于 https://arxiv.org/abs/1706.03762
## 架构
Transformer 由...组成
## 参考文献
[1] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need.
arXiv preprint arXiv:1706.03762.
[2] ...
同篇文章约 12k tokens。引用作为底部干净的编号参考文献保留。Infobox 可读为 Markdown 表格。数学公式转回 LaTeX。无 chrome、无 nav、无编辑链接。
工作流
三条路:
路径 1:Web2MD 扩展 (交互式)
Chrome 打开 Wikipedia 文章。点 Web2MD。Wikipedia 专用提取器:
- 检测文章类型 (概念, 人物, 地点, 事件, ...)
- 抓取标题、摘要、infobox、正文 sections
- 保留标题层级作为 Markdown 级别 (## / ### / ####)
- 引用徽章转为底部干净参考文献列表
- 数学公式 KaTeX/MathJax 转回 TeX 源
- 结构允许时转 GFM Markdown 表格
- 剥离 navbox、编辑链接、"帮助改进文章" 提示
输出可贴 Claude 或保存到 Obsidian/Notion。端到端:每文章约 5 秒。
路径 2:Wikipedia API + 自定义 Markdown 格式化
构建研究 pipeline 的开发者:
import requests
import re
def wiki_to_markdown(title, lang="zh"):
# 用 Wikipedia API 拿最干净的源
url = f"https://{lang}.wikipedia.org/w/api.php"
params = {
"action": "query", "format": "json",
"prop": "extracts|info", "titles": title,
"explaintext": True, "inprop": "url"
}
r = requests.get(url, params=params)
page = next(iter(r.json()["query"]["pages"].values()))
md = f"# {page['title']}\n\n**来源**: {page['fullurl']}\n\n"
md += page["extract"] # 已预清洗的纯文本提取
return md
explaintext: True 拿到 HTML 已预清洗的文本。比 HTML 抓取快,但失去表格和 infobox。"只要散文" 的 pipeline 适合。
路径 3:批量研究语料库
import requests
def fetch_articles(titles, lang="zh"):
# Wikipedia API 一次最多 50 个标题
chunks = [titles[i:i+50] for i in range(0, len(titles), 50)]
out = []
for chunk in chunks:
params = {
"action": "query", "format": "json", "prop": "extracts",
"titles": "|".join(chunk), "explaintext": True
}
r = requests.get(f"https://{lang}.wikipedia.org/w/api.php", params=params)
for page in r.json()["query"]["pages"].values():
out.append((page["title"], page.get("extract", "")))
return out
一次 HTTP 请求 50 文章,远低于速率限制。2 分钟构建 200 文章研究语料库。
真实例子:跨概念研究合成
我要写一篇 primer,对比四个不同研究传统(信息论、统计力学、神经网络、动力系统)怎么各自走向相似的「复杂度」概念。来源:
- 20 个核心 Wikipedia 文章(Shannon 熵、Kolmogorov 复杂度、自由能、吸引子盆地 等)
- 10 个基础思想家的 Wikipedia 传记
- 5 个具体应用的 Wikipedia 文章
共 35 篇。Web2MD 队列批量 Markdown 导出:约 6 分钟。合并:约 180k tokens。贴入 Claude Opus 4.7 配合成 prompt。Claude 生成带特定 Wikipedia section 引用的 12 页 primer,让我编辑和验证。
总耗时:约 90 分钟,LLM 前要 3 天的阅读 + 写作项目。
这套工作流不适合的场景
- 实时事实核查。Wikipedia 是抽取时刻的快照。新闻活跃话题文章天天变。最新事件每次会话前重新抽取。
- 原创研究。Wikipedia 是三次来源 — 二次文献的百科摘要。重要研究主张跟随引用链接到一次来源。
- 小众专业。Wikipedia 覆盖质量差异极大。专业领域要补充领域特定百科或 arXiv。
- 争议话题。编辑战的文章表面文本可能不反映共识。看 Talk 页或用多来源。
多语言 Wikipedia 用于跨语言研究
Wikipedia 存在 300+ 语言版本,内容重叠和差异都很大。多语言研究:
- 英文:https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
- 中文:https://zh.wikipedia.org/wiki/变换器_(机器学习)
- 日文:https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
- 德文:https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)
所有都用同一提取器。中文 Wikipedia 配 DeepSeek R2 token 高效 — 中文 Wikipedia 在 DeepSeek tokenizer 比 Claude 便宜 ~30%。
与其他研究工作流搭配
Wikipedia + 其他来源才真正发挥价值:
- Reddit + Wikipedia:Wikipedia 装确立知识,Reddit 装用户经验和最新讨论
- YouTube 字幕:和 Wikipedia 同主题的讲座;叠加理解
- 1M 上下文聚类:100+ 文章一次 prompt,多领域合成
快速上手
如果你已经用了 Web2MD,打开任意 Wikipedia 文章点击扩展。Wikipedia 专用提取器产生上面的输出。免费版处理 3 次/天,Pro 解锁批量队列。
dev workflow 用上面 Wikipedia API + 20 行 Python,批量任务大部分搞定。
相关阅读
- 为什么 Claude 读不了 Reddit
- Claude 1M 上下文窗口填法
- DeepSeek R2 中文内容管道
- Markdown vs HTML:AI 答得更好的格式
- Wikipedia 转 Markdown — 支持站点页
安装
免费 3 次/天。Pro $9/月解锁无限 + 批量队列 (一次导出 50+ 文章) + infobox / 引用 / 数学公式处理的专用 Wikipedia 提取器。