deepseek r2deepseek小红书 markdown微信公众号 markdown知乎 markdownB 站web2mdai 工作流中文 ai

DeepSeek R2 喂中文网页语料的完整管道(2026 实战)

Zephyr Whimsy2026-06-038 min read

DeepSeek R2 喂中文网页语料的完整管道(2026 实战)

DeepSeek R2 改变了中文 AI 研究的成本算账。比 Claude Opus 便宜 30 倍,让那种"200 篇文献跑 synthesis"的工作流从奢侈品变成日常工具。中文推理质量与 Western 顶级模型相当,英文场景"够用"。

但 R2 和所有模型一样存在同一个老问题:读不了小红书、微信公众号、知乎、B 站。这一篇讲怎么把这条管道接通。

R2 给中文研究真正解锁了什么

三个变化:

  1. 同样的语料调用成本下降一个数量级。30 万 tokens 的研究 session 在 Claude Opus 约 $5,在 DeepSeek R2 约 $0.15。从"每次都心疼一下"变成"每周成本"。
  2. 中文 tokenization 更密集。同样 1 万字中文文章,DeepSeek tokenize ~11k tokens,Claude/GPT ~18k。100 篇文献的语料就差出十几万 tokens 的余量。
  3. 中文跨文档 reasoning 真能用。早期中文模型在"对比 30 个知乎 thread 说什么"这类任务上会糊。R2 把这个变成可以靠谱发提示词的任务。

模型这边没问题了。问题在输入侧。

为什么主流大模型都吃不下中文平台内容

DeepSeek 自家的 web 工具,跟 ChatGPT browse / Claude WebFetch 一样,本质是服务器端 HTTP 请求。中国平台对这个挡得很死:

  • 小红书:单页 React 应用 + 反爬 fingerprint。服务器请求返回登录墙或空 shell。反爬定期更新。
  • 微信公众号 (mp.weixin.qq.com):强制 referer header + 签名参数会过期。直接 fetch 拿到的就是错误页。
  • 知乎:SPA + 登录限制部分回答 + 未授权速率限制约 30 个请求就被封。
  • B 站:视频 metadata 部分可 JSON 拿,但评论/弹幕需要登录态。社区内容客户端渲染。
  • 36Kr / 虎嗅 / 钛媒体:越来越多软付费墙 + 反爬。

信息都在公开网上;fetching 这一步被锁死。

实战工作流

我自己用的中文资料研究 session 五步:

1. 找 URL

Google site search(哪怕主战场是国内,Google 索引中文内容更深):

site:xiaohongshu.com "你的主题"
site:zhihu.com "你的主题"
site:mp.weixin.qq.com "你的主题"

逐个浏览器打开,边读边选。

2. 用带中文平台提取器的扩展 queue 起来

Web2MD 内置专用提取器:

  • 小红书(识别 SPA 渲染 + 图片 alt + 作者 metadata)
  • 微信公众号 mp.weixin.qq.com
  • 知乎(长答案的格式保留好)
  • B 站(视频页 + description + 顶部评论)
  • 36Kr, Sspai, 掘金, CSDN — 主要中文科技/商业站

每个标签点一下扩展加入队列。通用 markdown 剪藏器(MarkDownload, Obsidian Web Clipper)在这些平台上输出空白或乱码;平台专用提取器处理实际 DOM。

3. 批量导出成一个 Markdown

Web2MD 一键导出整个队列为单个 .md,每篇文章是一个 section,带源 URL header、作者 metadata、干净正文。50 篇典型中文语料导出后 ~150KB,约 160k DeepSeek tokens。

4. 粘到 DeepSeek R2

两条路:

chat.deepseek.com — 直接贴入对话。100k tokens 以内 UI 顺畅,再大用 API。

DeepSeek API — 严肃工作流。Markdown 语料放 system(开 prompt cache,跟进 turn 极便宜),问题放 messages

import requests
corpus = open("research-corpus-2026-06.md").read()

r = requests.post(
    "https://api.deepseek.com/v1/chat/completions",
    headers={"Authorization": "Bearer $DEEPSEEK_API_KEY"},
    json={
        "model": "deepseek-reasoner",
        "messages": [
            {"role": "system", "content": f"研究语料如下:\n\n{corpus}"},
            {"role": "user", "content": "总结小红书用户对 X 的主要抱怨,引用具体来源 URL。"},
        ],
    }
)

5. 验引用

DeepSeek 的 URL 引用大多准确,但抽查 3-5 条。中文 LLM(每一个)都会偶尔幻觉文章作者归属。

一次真实 session:跨平台品牌情绪分析

我做过一次品牌口碑分析:选一个消费科技品牌,看中国消费者在小红书(生活)、知乎(分析)、公众号(专业/营销)三个不同语境下到底怎么说。

  • 40 分钟 Google site search 找到 67 篇值得读的文章
  • 1 键批量导出,280KB Markdown,约 290k DeepSeek tokens
  • 1 个提示词:"用户对 [品牌] 的核心抱怨是什么?分小红书 / 知乎 / 公众号三个平台对比。提供原文 URL 引用。"
  • DeepSeek 跑 12 分钟
  • 5 分钟随机验 6 条引用

总耗时约 70 分钟。DeepSeek R2 跑这一次成本约 $0.50

同一个工作流如果用 Claude Opus 跑 API 成本约 $15。便宜 30 倍意味着"每周做一次跨平台监控"变得现实,而不是"季度做一次特别项目"。

这个工作流不能干什么

  • 不是实时监控。snapshot 工作流。要做实时追踪需要完全不同的架构。
  • 不是商业训练数据采集。小红书、公众号、知乎都禁止商业大规模抓取。个人研究 OK,商业要 licensing。
  • 不替代人工核实。DeepSeek synthesis 合理但模板化。高 stakes 决策仍要人工 verify。

DeepSeek 不是首选的场景

R2 在中文资料 + token 成本敏感场景是最佳。这些场景仍选 Claude:

  • 英语推理的绝对前沿
  • 英文长篇创意写作
  • 重 tool-use 工作流(Claude MCP 和 skills 生态更强)

日常中文资料研究 + 接好内容管道 = R2 新默认。

相关阅读

安装

Web2MD Chrome 扩展商店 →

免费 3 次/天。Pro $9/月解锁无限 + 队列 + 批量导出 + REST/MCP API。中文平台提取器免费版含。

Related Articles