📖 薄内容审计 · 使用教程

给运营看的大白话操作手册。读完就能上手。

这个工具是干啥的
第一次用：注册和登录
⭐ 怎么拿 CSS 选择器（最关键）
提交审计任务
看结果 + 下载报告
用 AI 改写建议
📋 审查项详解 — 报告里每个标记/动作啥意思
常见问题

1. 这个工具是干啥的

给一个网站的 sitemap，工具会逐页抓取、识别哪些是「薄内容页」——对搜索引擎和用户都没价值的页面（字数过少、内容空、标题堆关键词、和其它页几乎一样、HTTP 错误等）。

每页给三样东西：

问题诊断——大白话告诉你这页为啥被挑出来
建议动作——删除 / 合并 / 重写 / 扩充 / 加 noindex / 改标题 / 改图 alt
优先级——P0（赶紧改）/ P1（排期）/ P2（有空再说）

最后导出一份 Excel 报告，运营拿着按优先级清就行了。

什么时候用？站点收录量虚高、Google 排名上不去、流量长期没起色——大概率是薄内容拖了后腿。跑一遍知道哪些页该清、哪些该改。

2. 第一次用：注册和登录

2.1 找管理员要邀请码

跟 Leo 要邀请码（一串字符，比如 91team2026）。这个码用来注册新账号。

2.2 注册账号

浏览器打开注册页
填邀请码、花名（中英都行，比如 小李 或 leo）、密码（≥6 位）
点「注册」→ 自动登录跳到主页

2.3 以后登录

下次直接登录页输花名 + 密码。session 保持 7 天，关浏览器再开还在。

3. ⭐ 怎么拿 CSS 选择器（最关键）

3.1 啥是 CSS 选择器

每个网页都是用 HTML 写的，HTML 标签可以带 class 名字，比如：

<div class="post-content">
  这里是文章正文……
</div>

这个 .post-content（点 + class 名）就是 CSS 选择器——告诉工具「正文在哪个盒子里」。

不告诉工具的话，它会自动猜（通常能猜对），但自动猜可能抽到模板/广告/侧栏，把字数算大了/算小了。所以最好你自己看一眼站点的 HTML 结构，把正文容器的 selector 喂给它。

3.2 怎么拿（详细步骤）

1 浏览器（Chrome/Edge/Firefox 都行）打开你站里任意一个文章详情页，比如 https://yoursite.com/article/12345。

2 按 F12 打开「开发者工具」，或者在页面上右键 → 选「检查 / Inspect」。

3 左上角有个「箭头+方框」图标 ⌖（Chrome 是 Ctrl+Shift+C），点它进入「选元素」模式。

4 鼠标移到文章正文的某一段文字上，点一下。开发者工具的 Elements 面板会高亮对应的 HTML 标签，类似这样：

<p>这里是某一段正文……</p>

5 往上找包住整段正文的容器（这一步是关键）。在 Elements 面板里点 <p> 的父级，再往上一层，鼠标悬停时浏览器里会用蓝色框显示选中的范围。
找到「蓝框刚好包住整篇正文（不包括侧栏、不包括评论、不包括上下相关推荐）」的那一层。它的 class 就是你要的选择器。

6 看那一层标签，比如：

<div class="post-content"> ……整篇正文…… </div>

→ 你的选择器就是 .post-content。

或者（多个 class 的情况）：

<article class="article-body main-content"> ……正文…… </article>

→ 选择器写 .article-body 或 .main-content 都行（任选一个就够了）。

3.3 验证选对了

提交真的任务前，一定要先小样本试一下，用 max_urls=1 跑 1 条看：

结果	说明
字数 ≈ 你眼睛看到的正文字数	✅ 选对了
字数 = 0	❌ 选错了，工具没抽到内容
字数比看到的多很多	⚠️ 选大了，抽到了侧栏/相关推荐
字数比看到的少很多	⚠️ 选小了，只抽到部分

3.4 几个常见站的写法举例

建站系统	常见正文容器
WordPress（默认主题）	`.entry-content` / `.post-content` / `article`
Typecho	`.post-content` / `.entry`
Z-Blog	`.post-content` / `#article-content`
帝国 CMS / 织梦	`.content` / `#article` / `.body`
独立开发的	看 class 名，常见 `.article` / `.main` / `.content-body`

避坑：不要直接写 .content 这种太通用的——很多站点的侧栏/评论区/评论框也有 content 字样的 class，会把它们一起抽进来。先用开发者工具确认。

3.5 实在搞不定？留空

选择器框留空，工具内置了 40+ 个常见 selector +「蝴蝶效应SEO算法」兜底，会自动尝试。但精度可能比手填差。

4. 提交审计任务

4.1 各字段啥意思

字段	填啥	建议
Sitemap URL	站点的 sitemap 地址	必填。如 `https://yoursite.com/sitemap.xml`，支持 sitemap 索引和 .gz
字数阈值	少于多少字算薄	默认 40。文章站不动；视频/图集站可降到 20
CSS 选择器	正文容器的 class	见上面第 3 节。强烈建议手填
URL 过滤	正则，只审符合的 URL	可选。比如只审文章页：`/article/`
并发数	同时抓几条	默认 10。慢站可降到 3-5；快站可升到 20
最多审 N 条	0 = 全部，写数字 = 截前 N 条	试错时填 1 或 5
User-Agent	抓取时用的 UA	留空用浏览器默认。反爬严的站可换 Googlebot UA

4.2 推荐流程

第一次跑：填 sitemap、CSS 选择器、最多审 N 条 = 1，提交看一条结果。验证选择器对不对。
选择器确认 OK 后：去掉 N 条限制（填 0），跑全量。10000 条 URL 大约 10-20 分钟。
跑完下载 Excel 报告，按优先级清。

耗时估算：10 个并发，平均每页 1-2 秒。1000 条约 3-5 分钟、10000 条约 20-40 分钟。

5. 看结果 + 下载报告

5.1 主页面顶栏的几个数字

指标	意思
已处理 / 总数	进度
需处理	建议动作不是「跳过」的总数（≈ 真正要清的页面数）
薄内容	命中字数过少 / 空状态 / 标题堆词 / alt 堆词的页
软 404	HTTP 200 但内容写着「页面不存在」的
HTTP 错误	404 / 5xx / 3xx 等
标题重复	title 和别的页一样的
近重复组数	正文 95%+ 相似的页面组数
空状态页	内容写着「暂无 / no results」
noindex	站长已经主动 noindex 的
抓取错误	网络超时 / 连接拒绝

5.2 下载 Excel 报告（推荐）

跑完点「📊 下载 Excel 报告」，会下来一个多 sheet 的 .xlsx 文件：

Sheet	看啥
① 总览	这次审了多少、薄页占比、页型分布、动作分布。汇报老板拿这个
② 优先清理清单	核心 sheet。按动作分组（删除/合并/重写/...）+ 按 P0/P1/P2 排序，按行清
③ AI 改写建议（可选）	启用 AI 后多这一栏，每页给改写后标题/H1/扩充方向
④ HTTP 错误页	所有 404 / 5xx / 重定向页，单独一张方便修
⑤ 详细数据	每页所有指标的原始数字，技术同事查问题用
⑥ 近重复组	哪几组页面几乎一样，每组哪个该保留、其它合并到它
⑦ 术语表	看不懂的概念查这里

5.3 主 CSV / 近重复 CSV

需要原始数据做二次加工（如导入数据库 / Excel 透视），下载这两个。普通运营用 Excel 报告就够了。

6. 用 AI 改写建议

勾选「☑ 启用 AI 改写建议」后，工具会对最严重的 N 条薄页调用大模型，每页生成：

这页有啥问题（一段话）
怎么改（3-5 条具体建议）
改完目标（标题示例 / H1 示例 / 字数 / 删除还是重写）

这些只显示在 Excel 报告的「AI 改写建议」sheet。

6.1 你需要准备啥

字段	填啥
API Key（必填）	OpenAI 兼容协议网关的 key（你自己的）
Base URL	网关地址，留空用默认 deepseek
模型名	如 `deepseek-chat` / `gpt-4o-mini` / `qwen-plus`
Top N	跑前 N 条最严重的（默认 50）

6.2 推荐网关（由便宜到贵）

网关	Base URL	推荐模型	每条费用
DeepSeek 官方	留空（默认）	`deepseek-chat`	~¥0.005
阿里通义	`https://dashscope.aliyuncs.com/compatible-mode/v1`	`qwen-plus`	~¥0.01
OpenAI 官方	`https://api.openai.com/v1`	`gpt-4o-mini`	~¥0.02

50 条 AI 调用大概就是 0.5-1 元，跟一杯奶茶比起来不贵。

API Key 安全：这个 key 只在本次任务的内存里用，不会保存、不写日志、不落盘。重启服务即丢。但 HTTP 明文传输有被嗅探风险，谨慎在公共 WiFi 用。

7. 📋 审查项详解 — 报告里每个标记/动作啥意思

看 Excel 报告里的「问题诊断」「建议动作」「优先级」三列时，对照这一节查。

7.1 触发「薄」的 6 种信号

只要命中下面任何一条，这页 is_thin = True，会进薄内容清单：

① 字数过少

触发：正文字数低于阈值（文章页默认 40 / 首页 50 / tag-category 20）
大白话：这页基本啥也没说，用户来一趟没收获
咋办：扩充到 300+ 字（加观点/对比/案例/FAQ/配图说明）；实在没东西就删掉

② 空状态页

触发：正文里写着「暂无内容 / no results / 0 篇」之类
大白话：tag/分类/搜索/作者页里啥也没有
咋办：删掉 URL，或加 noindex 不让收录

③ 标题堆词 ⭐

触发：<title> 里命中 ≥4 个营销关键词（限制级、大尺度、床戏、吻戏、犯罪的身材...）
大白话：标题为了拉流量塞了一堆同义关键词，不像人话
例子：「韩国限制级神片日历女孩！韩国明星李熙大尺度献身床上的缠绵吻戏的湿热配上她那让人犯罪的身材每一帧都让人忍不住多看几眼」← 9 个关键词命中
咋办：改成 ≤60 字、聚焦 1-2 个核心词的自然标题。比如「韩国电影《日历女孩》李熙大尺度演出片段」

④ 图片 alt 堆词 ⭐

触发：≥3 张图 + 所有 alt 完全相同 + alt 长度 ≥30 字 + alt 命中 ≥4 个堆词关键词
大白话：10 张不同图配的描述全是同一句长堆词，明显是为搜索引擎写的不是为人写的
咋办：让技术给每张图分别配简短描述（「封面剧照」「吻戏特写」「身材展示」），或者改成中性描述

⑤ 正文抽取失败

触发：HTML 抓到了，但选择器没匹配上、自动识别也抽不到 30 字以上的内容
大白话：CSS 选择器配错了，或这页是 JS 渲染的
咋办：先重新拿 CSS 选择器（看第 3 节）；如果是 JS 渲染需要 headless 抓取，跟 Leo 说

⑥ 软 404

触发：HTTP 200 但页面文字里写着「404 / 找不到 / 已删除 / 页面不存在」
大白话：服务器假装这页正常，实际页面已经废了
咋办：让技术真正返回 404 或 410；sitemap 也要去掉这条

7.2 终端问题（网络 / HTTP）

问题	啥意思	咋办
抓取失败	网络超时 / 连接拒绝 / DNS / SSL 等	多半是临时问题，「重跑确认」即可
HTTP 4xx	这页不存在了，但 sitemap 还挂着	让运维更新 sitemap
HTTP 5xx	服务器报错	让技术看下服务
HTTP 3xx	sitemap 给了会跳转的 URL	把 sitemap 改成跳转后的最终地址

7.3 跨页信号（跑完所有页才能判定）

标题重复 (is_title_duplicate)

触发：站内 ≥2 个页有完全相同的 <title>
大白话：浏览器标签上的标题，跟其它页一字不差
咋办：每页改成独有标题，加品类 / 型号 / 地区 / 年份这种区分信息

近重复组 (near_dup_group)

触发：64 位 SimHash 海明距离 ≤1（约 95%+ 相似度）
大白话：跟另几个页内容几乎一样（典型场景：批量伪原创、参数 URL 多份内容）
咋办：保留字数最多的为主页，其它 301 到主页或加 canonical 指向主页。Excel 报告里有专门一个 sheet 列出每组的所有 URL

noindex / canonical（仅记录）

站长已经主动 noindex 或 canonical 的页 → 跳过，不用动

7.4 12 种建议动作详解

动作	什么时候触发	具体咋做
🗑️ 删除	页面真没价值（极端空页、空 tag/分类、坏页）	让技术下线 URL，返回 404 或 410（410 更彻底）；sitemap 也去掉
🛠️ 修404	HTTP 4xx 但页面应该存在	大概率 sitemap 没更新；或服务器配置错了，让技术修
🚫 noindex	页面要保留但不让收录（搜索结果页 / 隐私页）	让技术加 `<meta name="robots" content="noindex">`
🔗 noindex,follow	分页页（第 2 页 / 第 3 页）	让技术对 `/page/N/` 加 `noindex,follow`：不收录但允许爬虫继续跟链接走
🔀 合并	这页和站内另几个页几乎一样	选字数最多的为主页，其它 301 到主页或加 canonical 指向主页（Excel 报告里有完整组列表 + 主页推荐）
✏️ 重写	内容质量不够但 URL 要保留	加原创观点 / 评测 / 对比，少放跳转外链。这是给运营写文章的活儿
➕ 扩充	字数不够	补到 300 字以上。可以加：原创观点 / 产品对比 / 案例 / FAQ / 配图说明
📝 改标题	title 重复或标题堆词	重写到 ≤60 字、聚焦 1-2 个核心词；加唯一标识（品类 / 型号 / 地区 / 年份）
🖼️ 改图片alt	多张图配同一段堆词描述	让技术给每张图分别配不同的 alt 描述
🔄 重跑确认	这次抓取失败（网络问题）	过一会儿重新跑这页，多半是临时的
⏭️ 跳过	这页没问题	不用动，就放在那

7.5 6 种页型

工具会自动按 URL 模式给每页分类，不同页型用不同的字数门槛和判定规则：

页型	啥意思	字数门槛	处理逻辑
📄 article 文章页	实质内容页：博客、新闻、产品详情、教程	≥40（建议 ≥300）	标准薄内容判定
🏠 homepage 首页	站点主页	≥50	同上，门槛略高
🏷️ tag 标签页	把同标签文章聚合的列表页	≥20	主要看是不是空
📁 category 分类页	按分类聚合的列表页	≥20	同 tag
🔍 search 搜索页	用户搜索结果页（如 `/?s=foo`）	—	全部加 noindex（Google 明确不让收录）
📑 pagination 分页页	列表的第 2/3 页（如 `/page/2/`）	—	全部加 noindex,follow

7.6 优先级

级别	含义	处理时间
P0（红）	高严重度，留着拖累全站 SEO	本周内处理
P1（橙）	能救但要重写 / 调整	本月内排期
P2（灰）	边缘问题，处理与否影响不大	有空再说

新人上手心法：第一次跑完别慌，按「P0 → P1 → P2」三轮处理。先把红色的清干净（一般占 5-15%），就能立刻看到收录质量改善。

8. 常见问题

Q1：跑了一条，字数 = 0 / 字数不对

选择器没选对。回到第 3 节按步骤重新选。或者把选择器留空让工具自动猜。

Q2：跑得很慢

三个原因：

站本身慢——并发数（concurrency）调高（比如 20）
反爬限速——并发数调低（3-5）+ 换 User-Agent
sitemap 巨大（几万条 URL）——耐心，10000 条 20-40 分钟正常

Q3：很多页报「抓取失败 / 超时」

站点反爬严或 CDN 防护。试一下：

并发数降到 3-5
User-Agent 换成 Googlebot/2.1 (+http://www.google.com/bot.html)
跟运维确认下服务器 IP 是不是被站点 ban 了

Q4：报告里的优先级 / 动作 / 信号都是啥

看上面第 7 节「审查项详解」。

Q5：能不能保存任务列表？重启服务后任务都没了

目前任务列表不持久化。结果文件（.csv / .xlsx）在 /root/thin-content-audit/jobs/ 还在，但内存里的任务列表会丢。要持久化任务列表的话跟 Leo 说。

Q6：忘了密码 / 想改密码

找 Leo，他在服务器上跑命令重置：python3 add_user.py add 你的花名新密码。

遇到工具本身的问题（不是用法问题），找 Leo。
教程内容有误 / 不清楚 / 应该补充 → 反馈到 Leo。