以下是目前常用的“AI 爬虫 / AI 训练爬虫”屏蔽方法,包括 robots.txt、HTTP 头、UA 屏蔽、防止内容被抓取等。
1. robots.txt 屏蔽常见 AI 爬虫(最常用)
在你的网站根目录创建或编辑 robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
常见 AI 采集爬虫列表说明:
| UA | 来源 |
|---|---|
| GPTBot | OpenAI |
| ChatGPT-User | ChatGPT 浏览器插件 |
| OAI-SearchBot | OpenAI 搜索抓取 |
| Google-Extended | Google 给 AI 用的抓取 |
| CCBot | Common Crawl(AI 大模型常用训练数据源) |
| ClaudeBot | Anthropic Claude |
| PerplexityBot | Perplexity AI |
| Applebot-Extended | Apple AI 抓取 |
2. 服务器层面屏蔽 User-Agent(更强硬)
例如 Nginx:
if ($http_user_agent ~* "(GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended)") {
return 403;
}
Apache:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended) [NC]
RewriteRule .* - [F]
3. HTTP Header 阻止 AI 模型训练
加入:
X-Robots-Tag: noai, noimageai
HTML 页内也可:
<meta name="robots" content="noai, noimageai">
4. 屏蔽 AI 浏览器插件(如 ChatGPT 插件)
User-agent: ChatGPT-User
Disallow: /
5. 防止反扒爬虫:JS + Token(可选)
可加入页面动态 token 校验(类似 Cloudflare Turnstile) 但这是高级方案,一般网站无需。
6. 注意事项
- robots.txt 属于“自觉遵守”,恶意爬虫不会管
- 要完全屏蔽只能靠服务器层 UA / IP 封禁
- 常见 AI 公司都遵守 robots.txt(OpenAI/Google/Anthropic/Perplexity 等)
如果你需要,我可以帮你:
- 自动生成你的完整
robots.txt - 提供 Laravel / PHP 版本的屏蔽代码中间件
- 提供 nginx 配置文件直接可用版