知乎高赞回答转 Markdown 喂给 ChatGPT 做中文研究的完整工作流
知乎高赞回答转 Markdown 喂给 ChatGPT 做中文研究的完整工作流
你在做中文市场调研、技术选型、行业综述。你知道答案就藏在那条 8 万赞、写了五千字、被两百个评论补刀过的知乎回答里。你把链接粘进 ChatGPT。
"抱歉,我无法访问该网页。"
你截图。ChatGPT 只看到了首屏前 1/3,下面"想了解更多"的折叠按钮挡住了真正的高潮段。你试着自己复制,粘进去发现引用块、表格、代码全乱了,答主是谁、多少赞,全部丢失。
这一篇讲怎么把单条高赞回答(甚至整个话题下的 N 条高赞)干净地带进 ChatGPT / Claude / DeepSeek,让 AI 真的能拿去做中文研究,而不是对着半页乱码瞎猜。
为什么知乎答案难直接喂 AI
四个具体障碍,按"碰到的频率"排序。
ChatGPT 不会真的去打开知乎链接。 ChatGPT 的 browse 工具、Claude 的 WebFetch、DeepSeek 的联网搜索,本质都是服务器端 HTTP 请求。知乎对未登录的服务器 IP 极不友好:要么直接 302 到登录页,要么返回一个 React shell,正文还没渲染出来。模型看到的是 <div id="root"></div>,不是答案。
"想了解更多"折叠按钮。 知乎长答案默认只显示前面一截,剩下的藏在一个倒计时点击按钮后面(早期甚至需要等几秒倒数)。截图工具截到一半就被它挡住,普通爬虫拿不到展开后的 DOM。你想用 AI 分析的高赞答案,正好就是会被折叠的那种。
SPA 渲染 + 客户端登录态。 知乎是 React SPA,正文是 JS 渲染后才出现在 DOM 里的。curl https://www.zhihu.com/question/xxx/answer/yyy 拿到的是空骨架。即使你用 headless 浏览器爬,未登录状态下很多回答会显示"该内容需要登录后查看"。
答主权威信号丢失。 哪怕你想办法拿到了正文,"梁文锋 · 8.6 万赞"和"匿名用户 · 12 赞"两条回答对 AI 来说权重应该完全不同。普通复制粘贴只能拿到一坨文字,赞数、答主、回答时间这些 AI 判断可信度需要的信号全部消失。研究用 ≠ 抓文字,要带着 metadata 一起带过去。
合在一起,结果就是:你想要的那条 8 万赞答案,ChatGPT 根本看不到,或者看到的是去权威化的半成品。
Web2MD 工作流
三步,跑通整条管道大约 20 秒。
1. 在浏览器里打开你要的那条回答。 用你日常登录的 Chrome,已登录知乎。这点比听起来重要:扩展抓的是你浏览器渲染出来的内容,登录态下你能看见的完整答案 + 评论数 + 赞数,扩展就能拿到。不登录的话,"想了解更多"展不开,部分回答直接锁。
2. 点 Web2MD 图标。 扩展自带知乎专用提取器,会:
- 自动展开"想了解更多"折叠区
- 抽取答主昵称 + 一句话 bio + 赞同数 + 回答时间,写进 Markdown 头部
- 保留正文里的引用块、代码块、表格、有序无序列表
- 保留图片的 alt 文本(看不见图但能告诉 AI"这里有张架构图,标题是 X")
- 把原回答 URL 写进 frontmatter,方便后面让 AI 引用具体来源
输出的 Markdown 长这样(结构示意,不抄原文):
# [回答标题]
> 答主:XXX(5 个字以内的 bio)
> 赞同数:86,432
> 发布时间:2026-04-12
> 来源:https://www.zhihu.com/question/xxx/answer/yyy
[完整正文,保留格式]
3. 粘进 ChatGPT / Claude / DeepSeek。 单条回答通常 5–20k tokens,对话框直接贴就够。如果你做的是"一个话题下抓 5–10 个高赞答案做综述",开 Web2MD 的批量队列(Pro 功能):在每条回答页都点一下扩展,最后一键导出成一个 .md,每条答案一个 section,自带源 URL 和赞数 header。50 条高赞答案合起来一般在 100k tokens 上下,足够丢进 DeepSeek R2 或 Claude 1M 上下文做跨答案 reasoning。
关键的工程细节是:赞数 + 答主信号必须带过去。ChatGPT 在做"综合这五条回答"时,会显著倾向高赞那条;如果赞数信号丢失,它只会按出现顺序给出"平均观点",研究价值打折扣。这条是 Web2MD 知乎提取器和"通用网页转 markdown 工具"最大的差别。
真实案例:知乎"AI 大模型应用方向"话题 → ChatGPT 综述
一个常见场景。你在为公司做 2026 下半年 AI 应用方向的内部 brief,想知道中文从业者实际在押注什么。学术 paper 偏理论,公众号偏营销,知乎话题下的高赞回答是少数能看到"工程师 + 投资人 + 早期创业者"三类视角并存的语料池。
第 1 步 — 找。 Google site search 比直接在知乎搜更准:
site:zhihu.com "AI 大模型应用方向" 2026
挑出 5 条高赞回答,分别打开新标签。粗看一眼,都不少于 1500 字,赞数从 2.3 万到 12.8 万不等,答主背景一个算法工程师、两个连续创业者、一个 VC、一个产品经理。
第 2 步 — 抓。 每个标签点一下 Web2MD,加入队列。最后一键导出,得到一份 ~75KB 的 .md,5 个 section,每个 section 顶部有答主 + 赞数 + URL header。
第 3 步 — 让 ChatGPT 做 stance mapping。 在 ChatGPT 里贴入 Markdown,然后问:
"下面是 5 条知乎高赞回答,每条 header 注明了答主、赞数、URL。请做三件事:
- 识别这 5 条回答各自的核心论点,每条一句话。
- 找出他们之间互相反驳的地方,列出谁反驳谁、反驳的具体点。
- 给我一个加权综合:以赞数为权重,2026 下半年 AI 应用最被中文从业者押注的 3 个方向是什么。每个方向引用至少 2 条回答的 URL 作为依据。"
因为赞数 metadata 带过去了,第 3 问的"加权"才有意义。ChatGPT 会真的给出"方向 A 由 12.8 万赞和 8.6 万赞两条共同支持,方向 B 只被 2.3 万赞那条提到,权重低"这种判断。
第 4 步 — 翻译成 brief。 接着问:"基于上一步的结果,写一份 300 字的内部 brief,标注引用来源 URL。" 拿到的就是可以直接发到飞书群的初稿。
第 5 步 — 抽查。 随机点开 2–3 条 URL,对一下 ChatGPT 引用的论点跟原回答是否吻合。中文 LLM 偶尔会把"答主 A 说的"和"答主 B 说的"搞混,5 分钟抽查能把这类错误拦下来。
整条 session 大约 45 分钟。同一份 .md 接着丢给 Claude 做"反对意见挖掘"、丢给 DeepSeek 做"长篇综述写作",跨模型对比也是 5 分钟的事。这是 Markdown 当 lingua franca 的好处:源语料一次抓干净,下游 AI 自由换。
对比:Web2MD vs 其它把知乎答案带进 AI 的方法
客观列一下现实里能用的几条路。
Web2MD(Chrome 扩展)。 跑在你已登录的浏览器里,登录可见的回答都能抓。知乎专用提取器保留答主 + 赞数 + 折叠区展开 + 评论数。免费 3 次/天,Pro $9/月解锁批量队列 + REST/MCP API。缺点:仅支持 Chrome / Chromium 系浏览器,Firefox / Safari 没有版本;Pro 是真要花钱;做不了"绕过登录看 NSFW/匿名内容"这种事(合规设计)。
老牌 zhihu-to-markdown Chrome 扩展。 免费,社区维护。优点:装了就能用,单条回答转 Markdown 输出格式还行。缺点:知乎 SPA 改版相对频繁,扩展失效是常态,2026 年很多用户反馈"按钮点了没反应"。赞数和答主信号大多数版本不保留。能用就用,不能用就换。
自己复制粘贴。 永远可用,零成本。缺点:知乎的"想了解更多"折叠区你要先手动点开(多了一步),复制粘贴会把引用块/代码块/表格的格式打散,答主 + 赞数你要自己另开一行手抄,5 条回答以上就崩溃。单条且不在乎元信号的场景可以接受。
Python 脚本(zhihu-download / ZhihuToMarkdown 之类)。 开源、可定制。优点:dev 视角下可批量、可接进 pipeline。缺点:反爬命中率随知乎策略变动,未登录抓不到完整答案,登录态抓需要塞 cookie(合规灰区),普通研究者根本装不起来。dev 工具,非 dev 别选。
国内 AI 搜索(秘塔 AI 搜索、豆包搜索、Kimi 探索版)。 优点:免费、直接搜索 + 总结,对中文资料覆盖好。缺点:它们替你搜 + 选 + 总结,但你没法指定"就这 5 条高赞回答"。研究工作流的核心需求是"我已经挑好了 5 条权威源,AI 你帮我综合",国内 AI 搜索做不到这一点。它们是"搜索的替代",不是"研究语料管道"。两者并行:用秘塔做初步发现,找到链接后用 Web2MD 把选中的高赞回答带进 ChatGPT 做深度综合。
研究场景里真正决定选择的是两个特性:登录态可见的内容能不能抓,以及赞数 + 答主信号能不能保留。Web2MD 两个都做了,其他几条路都有缺一项。单条公开回答偶尔用一次,复制粘贴或老扩展够;要做 5 条以上的跨答案综述,工具差距会被放大。
常见问题
这套工作流只能给 ChatGPT 用吗?
不是。Web2MD 输出的是标准 Markdown,剪贴板里的内容粘到哪里都行:ChatGPT、Claude、DeepSeek、Kimi、豆包、Gemini、NotebookLM 都接。中文资料 + 成本敏感场景推 DeepSeek R2(每 1M tokens 大约 $0.5,比 Claude Opus 便宜 30 倍);跨答案 stance mapping 推 Claude;要写长篇综述推 ChatGPT。同一份 .md 三家都试一遍,30 分钟搞定对比。
知乎专栏文章和回答的提取器一样吗?
基本一样。Web2MD 的提取器会同时识别 zhuanlan.zhihu.com(专栏)和 www.zhihu.com/question/.../answer/...(回答)两种 URL 模式,对应不同的 DOM 选择器,但输出的 Markdown 结构一致(标题 + 作者 + 时间 + 正文)。专栏文章因为没有"赞数"概念,header 里换成"阅读量"或"喜欢数"(取页面上有的那个)。
抓的回答能用来训练我自己的模型吗? 不能,至少不能大规模、商业化地这么做。知乎的用户协议明确禁止未授权的批量抓取和商业使用,扩展的设计目的是个人研究和单页阅读辅助,不是数据采集管道。研究 / 内部分析 / 写 brief 这类一次性使用属于合理范围;做训练语料请走知乎官方合作渠道或 licensing。
我把答案贴进 ChatGPT 后,作者的版权怎么办? 中文互联网内容的著作权属于原作者,知乎平台规则在此之上还附加了引用条件。你把答案贴进自己的 ChatGPT 私聊里做个人研究、读 brief,属于合理使用范围内。但不要把抓来的回答原文整段复制到自己的公开文章 / 客户报告 / 商业 deliverable 里。综合 + 转述 + 注明来源 URL 是安全做法,整段照抄不是。
Web2MD 中文平台提取器一直会维护吗? 知乎、小红书、微信公众号、B 站、36Kr、掘金、CSDN 等主要中文站都在 Web2MD 的优先维护列表里。SPA 改版触发的失效通常 1–2 周内修复。免费版包含所有平台提取器,不存在"中文要加钱"的设计。
Web2MD 是一个把网页(包括登录态下完整的知乎回答 + 答主 + 赞数)转成干净 Markdown 的 Chrome 扩展,喂给 ChatGPT / Claude / DeepSeek 做中文研究。免费 3 次/天,访问 web2md.org。