如何将任意网页保存为 Markdown 文件
如何将任意网页保存为 Markdown 文件
互联网上有海量有价值的信息,但把这些内容保存为可用格式一直是个难题。HTML 太臃肿,PDF 不够灵活,纯文本又丢失了所有结构。Markdown 恰好处于最佳平衡点:轻量、通用、结构清晰,人和机器都能轻松阅读。
无论你是在 Obsidian 中构建个人知识库、将网页内容喂给 ChatGPT,还是为团队归档技术文档,将网页保存为 Markdown 都是 2026 年最明智的选择。
为什么要将网页保存为 Markdown?
Markdown 已经成为现代知识工作的通用语言。将网页内容保存为 .md 格式有这些优势:
- AI 友好 — GPT-4、Claude 等大语言模型处理 Markdown 的准确度远超原始 HTML 或复制粘贴的文本。干净的结构意味着更好的摘要、更少的幻觉、更低的 Token 消耗。
- 万能兼容 — Markdown 几乎适用于所有工具:Obsidian、Notion、Logseq、Typora、VS Code、GitHub 等。
- 永不过时 — 与专有格式不同,Markdown 本质是纯文本,50 年后依然可以打开阅读。
- 极其轻量 — 一个 Markdown 文件通常只有原始 HTML 页面的 1/10 到 1/50,没有图片、脚本或样式表的膨胀。
手动方法:复制、粘贴、然后祈祷
最基础的做法是手动将网页转换为 Markdown:
- 在浏览器中打开目标网页
- 选中你想保留的所有内容
- 粘贴到文本编辑器中
- 手动删除导航栏、广告、页脚和侧边栏内容
- 用
#语法重新添加标题 - 手动转换列表、粗体、链接和代码块
- 保存为
.md文件
问题是什么? 每个页面需要 10-20 分钟。你会丢失格式、遗漏嵌套结构,如果要处理的页面超过几个,时间成本会变得无法接受。
有人会先用浏览器的"阅读模式"去除杂乱元素再复制,但最终得到的仍然是缺少 Markdown 语法的纯文本。
自动化方法:让工具来干活
有多种工具可以自动完成网页转 Markdown 的工作:
浏览器扩展
像 Web2MD 这样的扩展直接在浏览器中运行。你访问页面,点击图标,立刻得到干净的 Markdown。不需要复制粘贴,不需要手动清理。
命令行工具
开发者有时使用 pandoc 等命令行工具或 turndown(JavaScript)、markdownify(Python)等库:
# 使用 pandoc 的示例
curl -s https://example.com/article | pandoc -f html -t markdown -o article.md
这种方式可行,但需要技术基础,无法很好地处理动态内容,而且通常会把导航和页脚一起转换进来。
在线转换器
也有网站提供粘贴 URL 下载 Markdown 的服务,但存在隐私问题(你的浏览数据被发送到第三方服务器),输出质量往往参差不齐。
方法对比
| 方法 | 速度 | 质量 | 易用性 | 隐私性 | 费用 | |---|---|---|---|---|---| | 手动复制粘贴 | 很慢 | 低 | 简单但繁琐 | 完全隐私 | 免费 | | Pandoc / 命令行 | 中等 | 中等 | 需要配置 | 完全隐私 | 免费 | | 在线转换器 | 快 | 中等 | 简单 | 数据上传服务器 | 免费/付费 | | Web2MD 扩展 | 即时 | 高 | 一键操作 | 本地运行 | 有免费版 |
Web2MD 的核心优势在于完全在浏览器本地运行,数据不会离开你的电脑。智能提取引擎会自动识别页面主要内容区域,跳过广告、菜单和侧边栏。
实操指南:用 Web2MD 保存网页
完整工作流如下:
- 安装 Web2MD — 从 web2md.org 获取扩展,添加到 Chrome 或任何基于 Chromium 的浏览器。
- 打开任意网页 — 导航到你想保存的文章、文档页面或博客。
- 点击 Web2MD 图标 — 扩展在一秒内提取主要内容并转换为 Markdown。
- 复制或下载 — 将 Markdown 复制到剪贴板,或直接保存为
.md文件。 - 随处使用 — 粘贴到 Obsidian、Notion、AI 工具或提交到 Git 仓库。
整个过程就是这样,不需要配置,不需要调整选择器,不需要后续清理。
典型应用场景
Obsidian 与个人知识管理
Obsidian 用户可以建立高效的网页剪藏工作流:将文章保存为 Markdown,添加标签,与现有笔记建立链接。由于 Web2MD 保留了标题和结构,剪藏的内容能自然地融入你的知识库。
为 AI 提供高质量输入
当你需要 ChatGPT 或 Claude 分析网页内容时,输入质量决定了输出质量。干净的 Markdown 比嘈杂的 HTML 能带来:
- 更准确的回答
- 更好的指令遵循
- 显著更低的 Token 消耗(节省 API 费用)
团队文档协作
将竞品页面、调研文章或参考文档保存为 Markdown 文件,放入团队的 Git 仓库。所有人都能获得干净、可版本控制、可搜索的内容。
Notion 导入
Notion 原生支持 Markdown 导入。用 Web2MD 将网页保存为 .md 文件,然后拖入 Notion 就能得到排版完美的页面。
获取最干净输出的技巧
- 等待页面完全加载 — 通过 JavaScript 动态加载的内容需要时间渲染。确保页面完整后再点击扩展。
- 在文章页面使用,而非首页 — 内容提取在有明确主体区域的页面(博客、文档、新闻)效果最好。首页包含多个内容块,结果较杂乱。
- 检查代码块 — 如果页面包含代码片段,确认 Markdown 输出中保留了语言标识(如
```python)。 - 按需处理元数据 — 有些工作流需要纯内容,有些需要 YAML front matter,根据目标工具调整。
- 批量处理调研任务 — 做调研项目时,一次性转换所有来源页面,整理到文件夹结构中再开始分析。
总结
将网页保存为 Markdown 已经不再是开发者的小众技巧,而是所有使用 AI 工具、构建知识库或维护文档的人的核心工作流。从囤积 HTML 转向结构化 Markdown 文件,每次搜索、引用或将内容传给大模型时,你都能感受到效率的提升。
最好的工具是那种不打扰你的工具——一键生成干净、结构化的 Markdown,消除从发现信息到使用信息之间的所有摩擦。
告别杂乱的复制粘贴,拥抱干净的 Markdown。试试 Web2MD — 一键将任意网页保存为 Markdown 文件。