常用的“AI 爬虫 / AI 训练爬虫”屏蔽方法

作者:shiyw · 2025-11-21 17:40:47 · 点击 15 · 回复 1

以下是目前常用的“AI 爬虫 / AI 训练爬虫”屏蔽方法,包括 robots.txt、HTTP 头、UA 屏蔽、防止内容被抓取等。


1. robots.txt 屏蔽常见 AI 爬虫(最常用)

在你的网站根目录创建或编辑 robots.txt

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

常见 AI 采集爬虫列表说明:

UA 来源
GPTBot OpenAI
ChatGPT-User ChatGPT 浏览器插件
OAI-SearchBot OpenAI 搜索抓取
Google-Extended Google 给 AI 用的抓取
CCBot Common Crawl(AI 大模型常用训练数据源)
ClaudeBot Anthropic Claude
PerplexityBot Perplexity AI
Applebot-Extended Apple AI 抓取

2. 服务器层面屏蔽 User-Agent(更强硬)

例如 Nginx:

if ($http_user_agent ~* "(GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended)") {
    return 403;
}

Apache:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended) [NC]
RewriteRule .* - [F]

3. HTTP Header 阻止 AI 模型训练

加入:

X-Robots-Tag: noai, noimageai

HTML 页内也可:

<meta name="robots" content="noai, noimageai">

4. 屏蔽 AI 浏览器插件(如 ChatGPT 插件)

User-agent: ChatGPT-User
Disallow: /

5. 防止反扒爬虫:JS + Token(可选)

可加入页面动态 token 校验(类似 Cloudflare Turnstile) 但这是高级方案,一般网站无需。


6. 注意事项

  1. robots.txt 属于“自觉遵守”,恶意爬虫不会管
  2. 要完全屏蔽只能靠服务器层 UA / IP 封禁
  3. 常见 AI 公司都遵守 robots.txt(OpenAI/Google/Anthropic/Perplexity 等)

如果你需要,我可以帮你:

  • 自动生成你的完整 robots.txt
  • 提供 Laravel / PHP 版本的屏蔽代码中间件
  • 提供 nginx 配置文件直接可用版
全部回帖
  • 小时 · 2025-11-21
    楼层:1

    不错,非常有用的帖子。谢谢分享

回复帖子