1. robots.txt 屏蔽常见 AI 爬虫（最常用）

在你的网站根目录创建或编辑 robots.txt：

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

常见 AI 采集爬虫列表说明：

UA	来源
GPTBot	OpenAI
ChatGPT-User	ChatGPT 浏览器插件
OAI-SearchBot	OpenAI 搜索抓取
Google-Extended	Google 给 AI 用的抓取
CCBot	Common Crawl（AI 大模型常用训练数据源）
ClaudeBot	Anthropic Claude
PerplexityBot	Perplexity AI
Applebot-Extended	Apple AI 抓取

2. 服务器层面屏蔽 User-Agent（更强硬）

例如 Nginx：

if ($http_user_agent ~* "(GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended)") {
    return 403;
}

Apache：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|OAI-SearchBot|Google-Extended|CCBot|ClaudeBot|PerplexityBot|Applebot-Extended) [NC]
RewriteRule .* - [F]

3. HTTP Header 阻止 AI 模型训练

加入：

X-Robots-Tag: noai, noimageai

HTML 页内也可：

<meta name="robots" content="noai, noimageai">

4. 屏蔽 AI 浏览器插件（如 ChatGPT 插件）

User-agent: ChatGPT-User
Disallow: /

5. 防止反扒爬虫：JS + Token（可选）

可加入页面动态 token 校验（类似 Cloudflare Turnstile）但这是高级方案，一般网站无需。

6. 注意事项

robots.txt 属于“自觉遵守”，恶意爬虫不会管
要完全屏蔽只能靠服务器层 UA / IP 封禁
常见 AI 公司都遵守 robots.txt（OpenAI/Google/Anthropic/Perplexity 等）

如果你需要，我可以帮你：

自动生成你的完整 robots.txt
提供 Laravel / PHP 版本的屏蔽代码中间件
提供 nginx 配置文件直接可用版

全部回帖

小时 · 2025-11-21

楼层：1

不错，非常有用的帖子。谢谢分享

常用的“AI 爬虫 / AI 训练爬虫”屏蔽方法

1. robots.txt 屏蔽常见 AI 爬虫（最常用）

2. 服务器层面屏蔽 User-Agent（更强硬）

3. HTTP Header 阻止 AI 模型训练

4. 屏蔽 AI 浏览器插件（如 ChatGPT 插件）

5. 防止反扒爬虫：JS + Token（可选）

6. 注意事项

全部回帖

回复帖子