wikipedia markdownwikipedia aiclaude wikipediaai 研究知识库web2md研究工作流

Wikipedia 文章转干净 Markdown 用于 AI 研究:2026 工作流

Zephyr Whimsy2026-06-048 min read

Wikipedia 文章转干净 Markdown 用于 AI 研究:2026 工作流

Wikipedia 是 AI 辅助研究合成的经典第一手来源。免费、全面、引用充足、持续更新。直接作为 LLM 输入的问题:渲染 HTML 里满是引用编号脚注、navbox、infobox 模板、编辑链接、内联参考文献 — 通常页面字节的 35-50% 是非内容。

本文是把噪声剥离,让 Claude / GPT-5.5 / DeepSeek R2 只看到本质的工作流。

原始 Wikipedia HTML 在 LLM 看来是什么

典型 Wikipedia 文章的 HTML:

  • 页头导航:菜单 + 搜索 + 登录共 1,500 tokens
  • 文章正文,掺杂 [edit] 链接、[1] 引用徽章、<sup> 脚注 ref:内容 8,000 tokens + 标记噪声 2,000 tokens
  • Infobox 模板渲染为带 200+ rowspan/colspan 单元格的 HTML 表格
  • "参考文献" section:脚注文本和引用 URL 共 4,000-6,000 tokens
  • "另见", "扩展阅读", "外部链接":纯链接列表共 1,500 tokens
  • Cookie 横幅、"隐私政策" 页脚:800 tokens

共:~18-20k tokens,而真正的内容只有 10-12k。直接贴 Claude 浪费 40% context 预算给 Wikipedia chrome。

干净 Markdown 抽取的输出

Web2MD Wikipedia 提取器的输出:

# Transformer (机器学习模型)

> 2017 年引入的深度学习模型架构,基于多头注意力机制。与递归架构不同,
> 并行处理输入数据。

**来源**: https://zh.wikipedia.org/wiki/变换器_(机器学习)
**最后更新**: 2026-05-28

## Infobox

| 字段 | 值 |
|---|---|
| 引入 | 2017 |
| 论文 | "Attention Is All You Need" (Vaswani 等) |
| 关键创新 | Self-attention 机制 |
| 著名应用 | BERT, GPT 系列, T5, Claude, ... |

## 背景

Transformer 之前,序列处理模型依赖...

[引用 1]: 原论文,归档于 https://arxiv.org/abs/1706.03762

## 架构

Transformer 由...组成

## 参考文献

[1] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need.
    arXiv preprint arXiv:1706.03762.
[2] ...

同篇文章约 12k tokens。引用作为底部干净的编号参考文献保留。Infobox 可读为 Markdown 表格。数学公式转回 LaTeX。无 chrome、无 nav、无编辑链接。

工作流

三条路:

路径 1:Web2MD 扩展 (交互式)

Chrome 打开 Wikipedia 文章。点 Web2MD。Wikipedia 专用提取器:

  • 检测文章类型 (概念, 人物, 地点, 事件, ...)
  • 抓取标题、摘要、infobox、正文 sections
  • 保留标题层级作为 Markdown 级别 (## / ### / ####)
  • 引用徽章转为底部干净参考文献列表
  • 数学公式 KaTeX/MathJax 转回 TeX 源
  • 结构允许时转 GFM Markdown 表格
  • 剥离 navbox、编辑链接、"帮助改进文章" 提示

输出可贴 Claude 或保存到 Obsidian/Notion。端到端:每文章约 5 秒。

路径 2:Wikipedia API + 自定义 Markdown 格式化

构建研究 pipeline 的开发者:

import requests
import re

def wiki_to_markdown(title, lang="zh"):
    # 用 Wikipedia API 拿最干净的源
    url = f"https://{lang}.wikipedia.org/w/api.php"
    params = {
        "action": "query", "format": "json",
        "prop": "extracts|info", "titles": title,
        "explaintext": True, "inprop": "url"
    }
    r = requests.get(url, params=params)
    page = next(iter(r.json()["query"]["pages"].values()))

    md = f"# {page['title']}\n\n**来源**: {page['fullurl']}\n\n"
    md += page["extract"]  # 已预清洗的纯文本提取
    return md

explaintext: True 拿到 HTML 已预清洗的文本。比 HTML 抓取快,但失去表格和 infobox。"只要散文" 的 pipeline 适合。

路径 3:批量研究语料库

import requests

def fetch_articles(titles, lang="zh"):
    # Wikipedia API 一次最多 50 个标题
    chunks = [titles[i:i+50] for i in range(0, len(titles), 50)]
    out = []
    for chunk in chunks:
        params = {
            "action": "query", "format": "json", "prop": "extracts",
            "titles": "|".join(chunk), "explaintext": True
        }
        r = requests.get(f"https://{lang}.wikipedia.org/w/api.php", params=params)
        for page in r.json()["query"]["pages"].values():
            out.append((page["title"], page.get("extract", "")))
    return out

一次 HTTP 请求 50 文章,远低于速率限制。2 分钟构建 200 文章研究语料库。

真实例子:跨概念研究合成

我要写一篇 primer,对比四个不同研究传统(信息论、统计力学、神经网络、动力系统)怎么各自走向相似的「复杂度」概念。来源:

  • 20 个核心 Wikipedia 文章(Shannon 熵、Kolmogorov 复杂度、自由能、吸引子盆地 等)
  • 10 个基础思想家的 Wikipedia 传记
  • 5 个具体应用的 Wikipedia 文章

共 35 篇。Web2MD 队列批量 Markdown 导出:约 6 分钟。合并:约 180k tokens。贴入 Claude Opus 4.7 配合成 prompt。Claude 生成带特定 Wikipedia section 引用的 12 页 primer,让我编辑和验证。

总耗时:约 90 分钟,LLM 前要 3 天的阅读 + 写作项目。

这套工作流不适合的场景

  • 实时事实核查。Wikipedia 是抽取时刻的快照。新闻活跃话题文章天天变。最新事件每次会话前重新抽取。
  • 原创研究。Wikipedia 是三次来源 — 二次文献的百科摘要。重要研究主张跟随引用链接到一次来源。
  • 小众专业。Wikipedia 覆盖质量差异极大。专业领域要补充领域特定百科或 arXiv。
  • 争议话题。编辑战的文章表面文本可能不反映共识。看 Talk 页或用多来源。

多语言 Wikipedia 用于跨语言研究

Wikipedia 存在 300+ 语言版本,内容重叠和差异都很大。多语言研究:

- 英文:https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
- 中文:https://zh.wikipedia.org/wiki/变换器_(机器学习)
- 日文:https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
- 德文:https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)

所有都用同一提取器。中文 Wikipedia 配 DeepSeek R2 token 高效 — 中文 Wikipedia 在 DeepSeek tokenizer 比 Claude 便宜 ~30%。

与其他研究工作流搭配

Wikipedia + 其他来源才真正发挥价值:

快速上手

如果你已经用了 Web2MD,打开任意 Wikipedia 文章点击扩展。Wikipedia 专用提取器产生上面的输出。免费版处理 3 次/天,Pro 解锁批量队列。

dev workflow 用上面 Wikipedia API + 20 行 Python,批量任务大部分搞定。

相关阅读

安装

Web2MD Chrome 扩展商店 →

免费 3 次/天。Pro $9/月解锁无限 + 批量队列 (一次导出 50+ 文章) + infobox / 引用 / 数学公式处理的专用 Wikipedia 提取器。

Related Articles