Wikipedia 有公开 API，为啥还要 Markdown？

Wikipedia API 返回 Wikitext 或 HTML — 两者都带模板、infobox、引用编号脚注、navbox 重荷。直接 API 消费需要写正规化器去除这些。Markdown 提取器一次做完正规化，Claude 读到的是比原始 HTML 少 40-50% token 的干净文本。

AI 研究里应该引用 Wikipedia 还是其底层来源？

Wikipedia 作为入口，关键事实跟随引用链接到一手来源。Web2MD 提取器保留引用链接，所以 Claude 能跟随。Wikipedia 准确度跟主题相关 — 入门 OK，活跃研究问题较弱。

Web2MD 处理 Wikipedia 特殊元素 (infobox, 参考文献, 数学公式) 吗？

处理。Infobox 转成 Markdown 顶部干净 section。引用脚注作为编号引用 section 保留在底部。KaTeX/MathJax 渲染的公式转回 TeX 源 ($...$) 让 Claude 正确读。表格在结构允许时转 GFM Markdown 表格，需要 colspan/rowspan 时用 HTML 表格。

能一次喂 Claude 50 个 Wikipedia 文章做研究合成吗？

能 — 这是常见模式。50 个中等长度 Wikipedia 文章约 250k tokens 干净 Markdown，舒服塞进 Claude 1M 上下文窗口，还有跟进余量。Wikipedia-Markdown 工作流特别适合「比较和对比」多概念的研究问题。

非英文 Wikipedia (中文, 日文等) 也能用吗？

Web2MD 处理所有 Wikipedia 语言版本一样。中文、日文、德文、法文 — 同一提取器，同一干净 Markdown 输出。中文研究配 DeepSeek R2 token 效率高 — 中文 Wikipedia 在 DeepSeek tokenizer 里比 Claude 便宜 ~30%。

Wikipedia 内容能用于 AI 训练吗？

Wikipedia 内容是 CC BY-SA 4.0，允许带署名和 share-alike 用于衍生作品。个人研究和 AI prompt 显然 OK。商用 AI 训练在同样的 license 条件下广泛允许，但要满足 license 的再分发要求。

Wikipedia 文章转干净 Markdown 用于 AI 研究：2026 工作流

Wikipedia 是 AI 辅助研究合成的经典第一手来源。免费、全面、引用充足、持续更新。直接作为 LLM 输入的问题：渲染 HTML 里满是引用编号脚注、navbox、infobox 模板、编辑链接、内联参考文献 — 通常页面字节的 35-50% 是非内容。

本文是把噪声剥离，让 Claude / GPT-5.5 / DeepSeek R2 只看到本质的工作流。

原始 Wikipedia HTML 在 LLM 看来是什么

典型 Wikipedia 文章的 HTML：

页头导航：菜单 + 搜索 + 登录共 1,500 tokens
文章正文，掺杂 [edit] 链接、[1] 引用徽章、<sup> 脚注 ref：内容 8,000 tokens + 标记噪声 2,000 tokens
Infobox 模板渲染为带 200+ rowspan/colspan 单元格的 HTML 表格
"参考文献" section：脚注文本和引用 URL 共 4,000-6,000 tokens
"另见", "扩展阅读", "外部链接"：纯链接列表共 1,500 tokens
Cookie 横幅、"隐私政策" 页脚：800 tokens

共：~18-20k tokens，而真正的内容只有 10-12k。直接贴 Claude 浪费 40% context 预算给 Wikipedia chrome。

干净 Markdown 抽取的输出

Web2MD Wikipedia 提取器的输出：

# Transformer (机器学习模型)

> 2017 年引入的深度学习模型架构，基于多头注意力机制。与递归架构不同，
> 并行处理输入数据。

**来源**: https://zh.wikipedia.org/wiki/变换器_(机器学习)
**最后更新**: 2026-05-28

## Infobox

| 字段 | 值 |
|---|---|
| 引入 | 2017 |
| 论文 | "Attention Is All You Need" (Vaswani 等) |
| 关键创新 | Self-attention 机制 |
| 著名应用 | BERT, GPT 系列, T5, Claude, ... |

## 背景

Transformer 之前，序列处理模型依赖...

[引用 1]: 原论文，归档于 https://arxiv.org/abs/1706.03762

## 架构

Transformer 由...组成

## 参考文献

[1] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need.
    arXiv preprint arXiv:1706.03762.
[2] ...

同篇文章约 12k tokens。引用作为底部干净的编号参考文献保留。Infobox 可读为 Markdown 表格。数学公式转回 LaTeX。无 chrome、无 nav、无编辑链接。

工作流

三条路：

路径 1：Web2MD 扩展 (交互式)

Chrome 打开 Wikipedia 文章。点 Web2MD。Wikipedia 专用提取器：

检测文章类型 (概念, 人物, 地点, 事件, ...)
抓取标题、摘要、infobox、正文 sections
保留标题层级作为 Markdown 级别 (## / ### / ####)
引用徽章转为底部干净参考文献列表
数学公式 KaTeX/MathJax 转回 TeX 源
结构允许时转 GFM Markdown 表格
剥离 navbox、编辑链接、"帮助改进文章" 提示

输出可贴 Claude 或保存到 Obsidian/Notion。端到端：每文章约 5 秒。

路径 2：Wikipedia API + 自定义 Markdown 格式化

构建研究 pipeline 的开发者：

import requests
import re

def wiki_to_markdown(title, lang="zh"):
    # 用 Wikipedia API 拿最干净的源
    url = f"https://{lang}.wikipedia.org/w/api.php"
    params = {
        "action": "query", "format": "json",
        "prop": "extracts|info", "titles": title,
        "explaintext": True, "inprop": "url"
    }
    r = requests.get(url, params=params)
    page = next(iter(r.json()["query"]["pages"].values()))

    md = f"# {page['title']}\n\n**来源**: {page['fullurl']}\n\n"
    md += page["extract"]  # 已预清洗的纯文本提取
    return md

explaintext: True 拿到 HTML 已预清洗的文本。比 HTML 抓取快，但失去表格和 infobox。"只要散文" 的 pipeline 适合。

路径 3：批量研究语料库

import requests

def fetch_articles(titles, lang="zh"):
    # Wikipedia API 一次最多 50 个标题
    chunks = [titles[i:i+50] for i in range(0, len(titles), 50)]
    out = []
    for chunk in chunks:
        params = {
            "action": "query", "format": "json", "prop": "extracts",
            "titles": "|".join(chunk), "explaintext": True
        }
        r = requests.get(f"https://{lang}.wikipedia.org/w/api.php", params=params)
        for page in r.json()["query"]["pages"].values():
            out.append((page["title"], page.get("extract", "")))
    return out

一次 HTTP 请求 50 文章，远低于速率限制。2 分钟构建 200 文章研究语料库。

真实例子：跨概念研究合成

我要写一篇 primer，对比四个不同研究传统（信息论、统计力学、神经网络、动力系统）怎么各自走向相似的「复杂度」概念。来源：

20 个核心 Wikipedia 文章（Shannon 熵、Kolmogorov 复杂度、自由能、吸引子盆地等）
10 个基础思想家的 Wikipedia 传记
5 个具体应用的 Wikipedia 文章

共 35 篇。Web2MD 队列批量 Markdown 导出：约 6 分钟。合并：约 180k tokens。贴入 Claude Opus 4.7 配合成 prompt。Claude 生成带特定 Wikipedia section 引用的 12 页 primer，让我编辑和验证。

总耗时：约 90 分钟，LLM 前要 3 天的阅读 + 写作项目。

这套工作流不适合的场景

实时事实核查。Wikipedia 是抽取时刻的快照。新闻活跃话题文章天天变。最新事件每次会话前重新抽取。
原创研究。Wikipedia 是三次来源 — 二次文献的百科摘要。重要研究主张跟随引用链接到一次来源。
小众专业。Wikipedia 覆盖质量差异极大。专业领域要补充领域特定百科或 arXiv。
争议话题。编辑战的文章表面文本可能不反映共识。看 Talk 页或用多来源。

多语言 Wikipedia 用于跨语言研究

Wikipedia 存在 300+ 语言版本，内容重叠和差异都很大。多语言研究：

- 英文：https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
- 中文：https://zh.wikipedia.org/wiki/变换器_(机器学习)
- 日文：https://ja.wikipedia.org/wiki/Transformer_(機械学習モデル)
- 德文：https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)

所有都用同一提取器。中文 Wikipedia 配 DeepSeek R2 token 高效 — 中文 Wikipedia 在 DeepSeek tokenizer 比 Claude 便宜 ~30%。

与其他研究工作流搭配

Wikipedia + 其他来源才真正发挥价值：

Reddit + Wikipedia：Wikipedia 装确立知识，Reddit 装用户经验和最新讨论
YouTube 字幕：和 Wikipedia 同主题的讲座；叠加理解
1M 上下文聚类：100+ 文章一次 prompt，多领域合成

快速上手

如果你已经用了 Web2MD，打开任意 Wikipedia 文章点击扩展。Wikipedia 专用提取器产生上面的输出。免费版处理 3 次/天，Pro 解锁批量队列。

dev workflow 用上面 Wikipedia API + 20 行 Python，批量任务大部分搞定。

安装

Web2MD Chrome 扩展商店 →

免费 3 次/天。Pro $9/月解锁无限 + 批量队列 (一次导出 50+ 文章) + infobox / 引用 / 数学公式处理的专用 Wikipedia 提取器。

Wikipedia 文章转干净 Markdown 用于 AI 研究：2026 工作流

Wikipedia 文章转干净 Markdown 用于 AI 研究：2026 工作流

原始 Wikipedia HTML 在 LLM 看来是什么

干净 Markdown 抽取的输出

工作流

路径 1：Web2MD 扩展 (交互式)

路径 2：Wikipedia API + 自定义 Markdown 格式化

路径 3：批量研究语料库

真实例子：跨概念研究合成

这套工作流不适合的场景

多语言 Wikipedia 用于跨语言研究

与其他研究工作流搭配

快速上手

相关阅读

安装

Related Articles

Extend Perplexity Research With Your Sources

".md This Page": How to Turn the Page You're On Into Markdown Instantly

r.jina.ai URL Prefix: How Jina Reader Works (and When It Fails) — 2026 Guide

Most Read

Latest Articles