← 回到主页 👤 shenji-integrated · 登出

📖 薄内容审计 · 使用教程

给运营看的大白话操作手册。读完就能上手。
目录
  1. 这个工具是干啥的
  2. 第一次用:注册和登录
  3. ⭐ 怎么拿 CSS 选择器(最关键)
  4. 提交审计任务
  5. 看结果 + 下载报告
  6. 用 AI 改写建议
  7. 📋 审查项详解 — 报告里每个标记/动作啥意思
  8. 常见问题

1. 这个工具是干啥的

给一个网站的 sitemap,工具会逐页抓取、识别哪些是「薄内容页」——对搜索引擎和用户都没价值的页面(字数过少、内容空、标题堆关键词、和其它页几乎一样、HTTP 错误等)。

每页给三样东西:

最后导出一份 Excel 报告,运营拿着按优先级清就行了。

什么时候用?站点收录量虚高、Google 排名上不去、流量长期没起色——大概率是薄内容拖了后腿。跑一遍知道哪些页该清、哪些该改。

2. 第一次用:注册和登录

2.1 找管理员要邀请码

跟 Leo 要邀请码(一串字符,比如 91team2026)。这个码用来注册新账号。

2.2 注册账号

  1. 浏览器打开 注册页
  2. 填邀请码、花名(中英都行,比如 小李leo)、密码(≥6 位)
  3. 点「注册」→ 自动登录跳到主页

2.3 以后登录

下次直接 登录页 输花名 + 密码。session 保持 7 天,关浏览器再开还在。

3. ⭐ 怎么拿 CSS 选择器(最关键)

3.1 啥是 CSS 选择器

每个网页都是用 HTML 写的,HTML 标签可以带 class 名字,比如:

<div class="post-content">
  这里是文章正文……
</div>

这个 .post-content(点 + class 名)就是 CSS 选择器——告诉工具「正文在哪个盒子里」。

不告诉工具的话,它会自动猜(通常能猜对),但自动猜可能抽到模板/广告/侧栏,把字数算大了/算小了。所以最好你自己看一眼站点的 HTML 结构,把正文容器的 selector 喂给它。

3.2 怎么拿(详细步骤)

1 浏览器(Chrome/Edge/Firefox 都行)打开你站里任意一个文章详情页,比如 https://yoursite.com/article/12345
2F12 打开「开发者工具」,或者在页面上右键 → 选「检查 / Inspect」。
3 左上角有个「箭头+方框」图标 (Chrome 是 Ctrl+Shift+C),点它进入「选元素」模式。
4 鼠标移到文章正文的某一段文字上,点一下。开发者工具的 Elements 面板会高亮对应的 HTML 标签,类似这样:
<p>这里是某一段正文……</p>
5 往上找包住整段正文的容器(这一步是关键)。在 Elements 面板里点 <p> 的父级,再往上一层,鼠标悬停时浏览器里会用蓝色框显示选中的范围。
找到「蓝框刚好包住整篇正文(不包括侧栏、不包括评论、不包括上下相关推荐)」的那一层。它的 class 就是你要的选择器。
6 看那一层标签,比如:
<div class="post-content"> ……整篇正文…… </div>
→ 你的选择器就是 .post-content

或者(多个 class 的情况):
<article class="article-body main-content"> ……正文…… </article>
→ 选择器写 .article-body.main-content 都行(任选一个就够了)。

3.3 验证选对了

提交真的任务前,一定要先小样本试一下,用 max_urls=1 跑 1 条看:

结果说明
字数 ≈ 你眼睛看到的正文字数✅ 选对了
字数 = 0❌ 选错了,工具没抽到内容
字数比看到的多很多⚠️ 选大了,抽到了侧栏/相关推荐
字数比看到的少很多⚠️ 选小了,只抽到部分

3.4 几个常见站的写法举例

建站系统常见正文容器
WordPress(默认主题).entry-content / .post-content / article
Typecho.post-content / .entry
Z-Blog.post-content / #article-content
帝国 CMS / 织梦.content / #article / .body
独立开发的看 class 名,常见 .article / .main / .content-body
避坑:不要直接写 .content 这种太通用的——很多站点的侧栏/评论区/评论框也有 content 字样的 class,会把它们一起抽进来。先用开发者工具确认。

3.5 实在搞不定?留空

选择器框留空,工具内置了 40+ 个常见 selector +「蝴蝶效应SEO算法」兜底,会自动尝试。但精度可能比手填差。

4. 提交审计任务

4.1 各字段啥意思

字段填啥建议
Sitemap URL站点的 sitemap 地址必填。如 https://yoursite.com/sitemap.xml,支持 sitemap 索引和 .gz
字数阈值少于多少字算薄默认 40。文章站不动;视频/图集站可降到 20
CSS 选择器正文容器的 class见上面第 3 节。强烈建议手填
URL 过滤正则,只审符合的 URL可选。比如只审文章页:/article/
并发数同时抓几条默认 10。慢站可降到 3-5;快站可升到 20
最多审 N 条0 = 全部,写数字 = 截前 N 条试错时填 1 或 5
User-Agent抓取时用的 UA留空用浏览器默认。反爬严的站可换 Googlebot UA

4.2 推荐流程

  1. 第一次跑:填 sitemap、CSS 选择器、最多审 N 条 = 1,提交看一条结果。验证选择器对不对。
  2. 选择器确认 OK 后:去掉 N 条限制(填 0),跑全量。10000 条 URL 大约 10-20 分钟。
  3. 跑完下载 Excel 报告,按优先级清。
耗时估算:10 个并发,平均每页 1-2 秒。1000 条约 3-5 分钟、10000 条约 20-40 分钟。

5. 看结果 + 下载报告

5.1 主页面顶栏的几个数字

指标意思
已处理 / 总数进度
需处理建议动作不是「跳过」的总数(≈ 真正要清的页面数)
薄内容命中字数过少 / 空状态 / 标题堆词 / alt 堆词的页
软 404HTTP 200 但内容写着「页面不存在」的
HTTP 错误404 / 5xx / 3xx 等
标题重复title 和别的页一样的
近重复组数正文 95%+ 相似的页面组数
空状态页内容写着「暂无 / no results」
noindex站长已经主动 noindex 的
抓取错误网络超时 / 连接拒绝

5.2 下载 Excel 报告(推荐)

跑完点「📊 下载 Excel 报告」,会下来一个多 sheet 的 .xlsx 文件:

Sheet看啥
① 总览这次审了多少、薄页占比、页型分布、动作分布。汇报老板拿这个
② 优先清理清单核心 sheet。按动作分组(删除/合并/重写/...)+ 按 P0/P1/P2 排序,按行清
③ AI 改写建议(可选)启用 AI 后多这一栏,每页给改写后标题/H1/扩充方向
④ HTTP 错误页所有 404 / 5xx / 重定向页,单独一张方便修
⑤ 详细数据每页所有指标的原始数字,技术同事查问题用
⑥ 近重复组哪几组页面几乎一样,每组哪个该保留、其它合并到它
⑦ 术语表看不懂的概念查这里

5.3 主 CSV / 近重复 CSV

需要原始数据做二次加工(如导入数据库 / Excel 透视),下载这两个。普通运营用 Excel 报告就够了。

6. 用 AI 改写建议

勾选「☑ 启用 AI 改写建议」后,工具会对最严重的 N 条薄页调用大模型,每页生成:

这些只显示在 Excel 报告的「AI 改写建议」sheet。

6.1 你需要准备啥

字段填啥
API Key(必填)OpenAI 兼容协议网关的 key(你自己的)
Base URL网关地址,留空用默认 deepseek
模型名deepseek-chat / gpt-4o-mini / qwen-plus
Top N跑前 N 条最严重的(默认 50)

6.2 推荐网关(由便宜到贵)

网关Base URL推荐模型每条费用
DeepSeek 官方留空(默认)deepseek-chat~¥0.005
阿里通义https://dashscope.aliyuncs.com/compatible-mode/v1qwen-plus~¥0.01
OpenAI 官方https://api.openai.com/v1gpt-4o-mini~¥0.02

50 条 AI 调用大概就是 0.5-1 元,跟一杯奶茶比起来不贵。

API Key 安全:这个 key 只在本次任务的内存里用,不会保存、不写日志、不落盘。重启服务即丢。但 HTTP 明文传输有被嗅探风险,谨慎在公共 WiFi 用。

7. 📋 审查项详解 — 报告里每个标记/动作啥意思

看 Excel 报告里的「问题诊断」「建议动作」「优先级」三列时,对照这一节查。

7.1 触发「薄」的 6 种信号

只要命中下面任何一条,这页 is_thin = True,会进薄内容清单:

① 字数过少

② 空状态页

③ 标题堆词 ⭐

④ 图片 alt 堆词 ⭐

⑤ 正文抽取失败

⑥ 软 404

7.2 终端问题(网络 / HTTP)

问题啥意思咋办
抓取失败网络超时 / 连接拒绝 / DNS / SSL 等多半是临时问题,「重跑确认」即可
HTTP 4xx这页不存在了,但 sitemap 还挂着让运维更新 sitemap
HTTP 5xx服务器报错让技术看下服务
HTTP 3xxsitemap 给了会跳转的 URL把 sitemap 改成跳转后的最终地址

7.3 跨页信号(跑完所有页才能判定)

标题重复 (is_title_duplicate)

近重复组 (near_dup_group)

noindex / canonical(仅记录)

7.4 12 种建议动作详解

动作什么时候触发具体咋做
🗑️ 删除 页面真没价值(极端空页、空 tag/分类、坏页) 让技术下线 URL,返回 404 或 410(410 更彻底);sitemap 也去掉
🛠️ 修404 HTTP 4xx 但页面应该存在 大概率 sitemap 没更新;或服务器配置错了,让技术修
🚫 noindex 页面要保留但不让收录(搜索结果页 / 隐私页) 让技术加 <meta name="robots" content="noindex">
🔗 noindex,follow 分页页(第 2 页 / 第 3 页) 让技术对 /page/N/noindex,follow:不收录但允许爬虫继续跟链接走
🔀 合并 这页和站内另几个页几乎一样 选字数最多的为主页,其它 301 到主页或加 canonical 指向主页(Excel 报告里有完整组列表 + 主页推荐)
✏️ 重写 内容质量不够但 URL 要保留 加原创观点 / 评测 / 对比,少放跳转外链。这是给运营写文章的活儿
➕ 扩充 字数不够 补到 300 字以上。可以加:原创观点 / 产品对比 / 案例 / FAQ / 配图说明
📝 改标题 title 重复 或 标题堆词 重写到 ≤60 字、聚焦 1-2 个核心词;加唯一标识(品类 / 型号 / 地区 / 年份)
🖼️ 改图片alt 多张图配同一段堆词描述 让技术给每张图分别配不同的 alt 描述
🔄 重跑确认 这次抓取失败(网络问题) 过一会儿重新跑这页,多半是临时的
⏭️ 跳过 这页没问题 不用动,就放在那

7.5 6 种页型

工具会自动按 URL 模式给每页分类,不同页型用不同的字数门槛和判定规则:

页型啥意思字数门槛处理逻辑
📄 article 文章页实质内容页:博客、新闻、产品详情、教程≥40(建议 ≥300)标准薄内容判定
🏠 homepage 首页站点主页≥50同上,门槛略高
🏷️ tag 标签页把同标签文章聚合的列表页≥20主要看是不是空
📁 category 分类页按分类聚合的列表页≥20同 tag
🔍 search 搜索页用户搜索结果页(如 /?s=foo全部加 noindex(Google 明确不让收录)
📑 pagination 分页页列表的第 2/3 页(如 /page/2/全部加 noindex,follow

7.6 优先级

级别含义处理时间
P0(红)高严重度,留着拖累全站 SEO本周内处理
P1(橙)能救但要重写 / 调整本月内排期
P2(灰)边缘问题,处理与否影响不大有空再说
新人上手心法:第一次跑完别慌,按「P0 → P1 → P2」三轮处理。先把红色的清干净(一般占 5-15%),就能立刻看到收录质量改善。

8. 常见问题

Q1:跑了一条,字数 = 0 / 字数不对

选择器没选对。回到第 3 节按步骤重新选。或者把选择器留空让工具自动猜。

Q2:跑得很慢

三个原因:

Q3:很多页报「抓取失败 / 超时」

站点反爬严或 CDN 防护。试一下:

Q4:报告里的优先级 / 动作 / 信号都是啥

看上面 第 7 节「审查项详解」

Q5:能不能保存任务列表?重启服务后任务都没了

目前任务列表不持久化。结果文件(.csv / .xlsx)在 /root/thin-content-audit/jobs/ 还在,但内存里的任务列表会丢。要持久化任务列表的话跟 Leo 说。

Q6:忘了密码 / 想改密码

找 Leo,他在服务器上跑命令重置:python3 add_user.py add 你的花名 新密码

遇到工具本身的问题(不是用法问题),找 Leo。
教程内容有误 / 不清楚 / 应该补充 → 反馈到 Leo。