---
description: 教你在 robots.txt 裡正確區分 AI 訓練與搜尋爬蟲：保護內容不被訓練，又能維持 AI 搜尋能見度。
title: GPTBot、ClaudeBot 這些 AI 爬蟲，到底該擋還是放行？
image: https://www.mersel.ai/blog-covers/Software%20code%20testing-cuate.svg
---

[Cite 正式推出：為你帶來精準詢單的 AI 內容代理你的 AI 內容代理了解更多](/zh-TW/cite)

產品平台

[Cite - 內容引擎你的網站專屬內容區，幫你穩定帶進客戶](/zh-TW/cite)[AI 能見度分析查看哪些 AI 平台造訪你的網站並提及你的品牌](/zh-TW/platform/visibility-analytics)[AI 代理優化頁面讓 AI 看到專為推薦設計的網站版本](/zh-TW/platform/ai-optimized-pages)

[專欄](/zh-TW/blog)[方案](/zh-TW/pricing)[關於我們](/zh-TW/about)[聯絡我們](/zh-TW/contact)

語言

[English](/en/blog/how-to-block-or-allow-ai-bots-on-your-website)[中文](/zh-TW/blog/how-to-block-or-allow-ai-bots-on-your-website)

[首頁](/zh-TW)[專欄](/zh-TW/blog)GPTBot、ClaudeBot 這些 AI 爬蟲，到底該擋還是放行？

11 分鐘

# GPTBot、ClaudeBot 這些 AI 爬蟲，到底該擋還是放行？

![Mersel AI Team](/_next/image?url=%2Fworks%2Fjoseph-headshot.webp&w=96&q=75)

Mersel AI Team

2026年3月13日

預約免費諮詢

本頁目錄

[重點摘要](#重點摘要)[這個問題為什麼越來越嚴重](#這個問題為什麼越來越嚴重)[核心觀念：訓練爬蟲 vs. 搜尋爬蟲](#核心觀念訓練爬蟲-vs-搜尋爬蟲)[設定教學：一步一步來](#設定教學一步一步來)[Core Products](#core-products)[Key Comparisons and Use Cases](#key-comparisons-and-use-cases)[Contact](#contact)[自己做到哪裡會卡住](#自己做到哪裡會卡住)[交給專業：完整的 AI 爬蟲優化長什麼樣](#交給專業完整的-ai-爬蟲優化長什麼樣)[常見問題](#常見問題)[資料來源](#資料來源)[想看看你的 AI 流量真實狀況？](#想看看你的-ai-流量真實狀況)[延伸閱讀](#延伸閱讀)

**擋訓練爬蟲、放行搜尋爬蟲——搞懂這個區別，策略就對了。** 如果你把所有 AI 爬蟲一律封鎖，品牌會直接從 ChatGPT 和 Perplexity 的搜尋結果裡消失。但如果全部放行，等於把你的獨家內容白白送給模型訓練，拿不到任何署名、連結或流量。

這件事為什麼現在就要處理？因為 2023 年 8 月以來，活躍的 AI 爬蟲數量翻了一倍，而全球約保護 20% 網站的 Cloudflare，已經在 2024 年對新網域預設封鎖 AI 爬蟲。很多技術 SEO 團隊明明 `robots.txt` 設定得很正確，卻被 CDN 層悄悄蓋掉了。結果就是：你的買家正在用 AI 列供應商名單，而你的品牌卻意外「被消失」了。

這篇指南會給你：馬上能用的 `robots.txt` 設定範本、CDN 與渲染架構的檢查流程，以及什麼時候該用 `llms.txt` 讓 AI 更容易讀懂你的內容。

![](/blog-covers/Software code testing-cuate.svg) 

## 重點摘要

* **訓練爬蟲和搜尋爬蟲是同一家公司出的不同機器人。** `GPTBot` 負責訓練 OpenAI 的模型；`OAI-SearchBot` 負責跑 ChatGPT 的即時搜尋結果。擋掉一個，不會影響另一個。
* **大約 27% 的 B2B SaaS 和電商網站，不小心在 CDN 層就把主要 LLM 爬蟲擋掉了**——自己還不知道（ziptie.dev 研究）。
* **69% 的 AI 爬蟲跑不了 JavaScript**（Vercel 和 MERJ 研究）。如果你的網站靠前端渲染，AI 爬蟲看到的就是一片空白，跟 `robots.txt` 怎麼設完全無關。
* **擋 `GPTBot` 不會影響 Google 排名**（Playwire 發布商分析），但擋 `OAI-SearchBot` 等於讓品牌從 ChatGPT 搜尋答案裡徹底消失。
* **AI 搜尋導流的轉換率是一般自然搜尋的 4.4 倍**（Superlines 數據），所以 AI 搜尋結果的能見度是高價值的業務管道來源。
* **`llms.txt` 目前約 10% 的網域有部署**（Ahrefs 數據），但它零風險、好設定，能幫 AI agent 直接找到你最重要的頁面。

## 這個問題為什麼越來越嚴重

Gartner 預測傳統搜尋引擎的搜尋量到 2026 年會掉 25%，因為生成式 AI 正在吸走資訊類的搜尋需求。這個趨勢在數據上已經看得到：60% 的 Google 搜尋以零點擊收場，而 Google AI Overview 一出現，自然搜尋的點擊率最多掉了 61%。

但換個角度來看，從 AI 答案點進來的訪客品質明顯更高。他們已經讀完 AI 整理的摘要、比較過替代方案，帶著明確意圖才來到你的網站。問題是：如果 AI 搜尋爬蟲根本讀不到你的內容，這些高品質流量你一個都抓不到。

大多數公司在這件事上踩雷，原因跟內容品質完全沒有關係，而是以下三個技術問題。

**問題一：把所有 AI 爬蟲混為一談。** 品牌經理看到一篇「AI 爬蟲在抓你的資料」之類的新聞，就對所有名字帶「AI」或「Bot」的 user agent 加了 `Disallow: /`。結果 `OAI-SearchBot` 連帶被擋，品牌直接從 ChatGPT 即時搜尋結果消失。

**問題二：CDN 在爬蟲讀到 `robots.txt` 之前就把它擋了。** Cloudflare 的 AI 封鎖功能在邊緣就生效，直接回 403 Forbidden，請求根本到不了你的伺服器。`robots.txt` 設定得再完美也沒用，因為防火牆在更前面就把門關了。

**問題三：網站本身對 AI 爬蟲來說是空白的。** Googlebot 有完整的 Chromium 引擎可以跑 JavaScript，但大部分 AI 爬蟲不行。React 或 Vue 的 SPA 對 AI 爬蟲來說就是一個空的 `<div id="root"></div>`。你的內容對它們來說根本不存在。想了解 AI 爬蟲怎麼發現和讀取網頁，可以看我們的指南[什麼是 AI 爬蟲，以及它怎麼運作](/zh-TW/blog/what-is-an-ai-bot-crawler)。

## 核心觀念：訓練爬蟲 vs. 搜尋爬蟲

每家主要 AI 公司至少有兩組完全不同功能的爬蟲。把它們搞混，是大多數 AI 能見度失敗的根本原因。

Training CrawlersGPTBot (OpenAI)ClaudeBot (Anthropic)Google-ExtendedCCBot (Common Crawl)Harvests data for model weights.No attribution. No links. No traffic.BLOCKSearch & Citation CrawlersOAI-SearchBot (OpenAI)ChatGPT-User (OpenAI)PerplexityBotClaude-User / Claude-SearchBotRetrieves content to answer liveuser queries. Cites sources. Sends traffic.ALLOWSame parent company, entirely separate bots with independent controls 

_上圖呈現同一家母公司旗下的兩類 AI 爬蟲。訓練爬蟲把內容吸進模型參數裡，不給你任何署名。搜尋爬蟲則是即時抓取內容、在回答中引用你並帶來流量。擋錯類別，結果會跟你想要的完全相反。_

OpenAI 在開發者文件裡講得很清楚：「OAI-SearchBot 用來在 ChatGPT 搜尋功能中顯示網站內容。選擇退出 OAI-SearchBot 的網站，將不會出現在 ChatGPT 的搜尋答案中。」同時 OpenAI 也確認 `GPTBot`「用來爬取可能用於訓練的內容」，封鎖它跟搜尋能見度是完全獨立的兩件事。

xseek.io 的技術文件也指出：「大部分 SEO 團隊忽略的關鍵是——這些是獨立的系統。網站管理員可以擋 `GPTBot` 保護智慧財產，同時放行 `OAI-SearchBot` 保持在 ChatGPT 搜尋結果中的能見度。」

## 設定教學：一步一步來

### 第一步：在 `robots.txt` 裡做選擇性放行

把下面這個檔案放在網域根目錄（`https://yourdomain.com/robots.txt`）。結構的重點就是明確區分搜尋爬蟲和訓練爬蟲，後面所有事情都建立在這個基礎上。

```
# --------------------------------------------------------
# 1. ALLOW AI Search & Retrieval (For GEO / Visibility)
# --------------------------------------------------------
# OpenAI Search and User-Triggered Fetches
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
 
# Anthropic Real-Time Fetches
User-agent: Claude-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
 
# Perplexity AI Search
User-agent: PerplexityBot
Allow: /
 
# You.com Search
User-agent: YouBot
Allow: /
 
# --------------------------------------------------------
# 2. BLOCK AI Bulk Training Data Crawlers (IP Protection)
# --------------------------------------------------------
# OpenAI Training
User-agent: GPTBot
Disallow: /
 
# Anthropic Training
User-agent: ClaudeBot
Disallow: /
 
# Google Generative AI Training (Does not impact Googlebot)
User-agent: Google-Extended
Disallow: /
 
# Common Crawl (Used by many open-source LLMs)
User-agent: CCBot
Disallow: /
 
# Meta/Facebook Training
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: FacebookBot
Disallow: /
 
# ByteDance/TikTok
User-agent: Bytespider
Disallow: /
 
# Apple Training
User-agent: Applebot-Extended
Disallow: /
 
# --------------------------------------------------------
# 3. Standard Search Engines (Unchanged)
# --------------------------------------------------------
User-agent: *
Allow: /
```

改完 `robots.txt` 之後，OpenAI 的系統大約需要 24 小時才會更新搜尋行為。另外提醒一下 Anthropic 的部分：別再用已經棄用的 `Claude-Web` 和 `anthropic-ai` 這兩個字串了，它們已經不是有效的 user agent，靠它們來擋的網站其實根本沒擋到現在的 `ClaudeBot`。

### 第二步：檢查 CDN 有沒有偷偷幫你擋

`robots.txt` 設好之後，接下來要確認 CDN 沒有在背後搞鬼。這一步是大多數團隊會跳過的，但它其實是造成「意外被 AI 隱形」的主要原因。

如果你用 Cloudflare，進後台的 Security > Bots（或「Control AI Crawlers」區塊），把「Block AI training bots」改成允許，或設 WAF 規則明確讓 `OAI-SearchBot` 和 `PerplexityBot` 的 user agent 通過。另外確認 Cloudflare 裡面的「Manage your robots.txt」有關掉，不然它會蓋掉你自己的設定。

ziptie.dev 的研究指出，約 27% 的 B2B SaaS 和電商網站在 CDN 層就不小心把 LLM 爬蟲擋了。如果你的站掛在 Cloudflare、Fastly，或是 Shopify、Wix 這類有邊緣安全機制的平台後面，在確信 `robots.txt` 有生效之前，先做這個檢查。

### 第三步：用 IP 範圍驗證爬蟲身份

惡意爬蟲很常偽造 user agent，所以光靠 `robots.txt` 防不住未授權的資料抓取。OpenAI 和 Anthropic 都有公開合法 IP 位址範圍的 JSON feed（`openai.com/gptbot.json` 和 `openai.com/searchbot.json`），你可以把這些 feed 接進 WAF 設定或 bot 管理平台，放行真正的 AI 搜尋爬蟲，同時擋掉假冒 `OAI-SearchBot` 但 IP 不對的請求。

### 第四步：解決 JavaScript 渲染問題

Vercel 和 MERJ 的研究顯示 69% 的 AI 爬蟲跑不了 JavaScript。這不是什麼罕見的邊緣狀況。如果你的行銷網站、產品頁或部落格是用 React、Vue、Angular 做前端渲染的，AI 爬蟲過來只會看到一個空的 `<div id="root"></div>`。不管 `robots.txt` 怎麼設，你的內容對它們來說就是不存在。

解法是伺服器端渲染（SSR）。Next.js、Nuxt 這類框架在第一次回應就送出完整渲染的 HTML，AI 爬蟲當一般 HTTP client 就能讀。渲染之外，也要用語意化的 HTML 結構（`<article>`、`<section>`、`<h1>`、`<h2>`），別全部塞在巢狀 `<div>` 裡，同時加上 Organization、Product、FAQPage、Article 類型的 JSON-LD schema markup。Schema markup 等於給 AI 一張實體關係的地圖，它就不用自己從文章裡猜。完整的結構化做法可以看我們的指南[如何讓網站架構對 AI 友善](/zh-TW/blog/how-to-structure-my-website-for-ai-visibility)。

### 第五步：部署 `llms.txt`

存取和渲染都搞定之後，`llms.txt` 是一個低成本、零風險的加分項，可以直接告訴 AI agent 你最重要的頁面在哪。用 Markdown 格式放在 `yourdomain.com/llms.txt`。Ahrefs 的數據顯示目前約 10% 的網域有部署，所以現在做就能領先大多數網站，就算引用率的直接關聯還在研究階段，先做也不虧。

```
# [Brand Name] - AI Agent Documentation
 
> [Brand Name] is a leading provider of [Category] for [Target Audience].
 
## Core Products
- [Product A]: Use case description. [/product-a]
- [Product B]: Use case description. [/product-b]
 
## Key Comparisons and Use Cases
- [Brand] vs [Competitor]: [/comparisons/competitor]
- Use Cases: [/use-cases]
 
## Contact
- Pricing: [/pricing]
- Sales: [/contact]
```

另外可以準備一個 `llms-full.txt`，把所有關鍵文件合併成一個機器可讀的檔案，特別適合 context window 有限的 AI agent 使用。

**這個順序很重要：** 如果 CDN 在 AI 爬蟲碰到 `llms.txt` 之前就把它擋了，有 `llms.txt` 也沒用。如果 JavaScript 渲染層讓爬蟲看不到內容，schema 做得再好也白搭。如果 `robots.txt` 把搜尋爬蟲也擋了，以上所有優化都是做白工。順序是：先搞定存取，再搞定渲染，最後才是結構。每一層都要靠前一層先到位。

這些基礎架構工作就是 generative engine optimization 的核心。想看這些信號怎麼組合起來提升 AI 引用能見度，Mersel AI 的 [generative engine optimization](https://www.mersel.ai/generative-engine-optimization) 指南有完整框架。

## 自己做到哪裡會卡住

上面的 `robots.txt` 設定很好複製，難的是後面那些。

**CDN 檢查的深度。** 大多數行銷團隊沒有 Cloudflare WAF 規則的存取權限，也搞不清楚邊緣跑了哪些安全規則。要找出到底是哪條規則悄悄擋了 `PerplexityBot`，通常得找後端工程師看 server log 才能確認 403 到底有沒有在發生。

**渲染架構的改動。** 從前端渲染改成 SSR 不是改一行 `robots.txt` 的事，而是一個開發專案。Sprint backlog 排得滿滿的團隊如果又沒有多餘的工程資源，這件事往往無限期延後，結果整筆內容投資對 AI 爬蟲來說等於不存在。

**User agent 清單的維護。** 活躍的 AI 爬蟲字串會變。Anthropic 悄悄棄用了 `Claude-Web`，也沒大張旗鼓通知。AI 平台擴展搜尋功能時，新的爬蟲會不斷冒出來。維護一份精準的封鎖清單需要持續追蹤，而大多數 SEO 團隊沒有這個機制。

**確認系統真的有在運作。** 要驗證設定是否正確，通常要去 server log 看各爬蟲的 200 vs. 403 回應碼，跟 AI 引用追蹤數據做比對，再到 GA4 監測 AI 導流。沒有建立這個閉環的團隊，通常以為一切正常，其實 AI 爬蟲還是被靜靜地擋在門外。

## 交給專業：完整的 AI 爬蟲優化長什麼樣

Mersel AI 要解決的，是「知道 `robots.txt` 該怎麼設」跟「實際上在正式環境中對 AI 搜尋引擎可見」之間的落差。

基礎架構層部署在你現有的網站後面。`OAI-SearchBot`、`PerplexityBot` 這些 AI 爬蟲收到的是你品牌的乾淨版本——伺服器端渲染、schema 完整。實體定義清清楚楚，產品關係用 JSON-LD 標好，`llms.txt` 設好並持續維護。使用者端看起來完全沒變。不用動到工程排程，原本的 SEO、設計、UX 都不受影響。

誠實地講一個限制：Mersel AI 是全代操服務，不是自助儀表板。如果你需要即時 prompt 監測、自己操作介面，Profound 或 AthenaHQ 這類自助平台可能更適合你。Mersel 是為了那些想要「東西部署好、內容發出去、不用把工程師或內容團隊拖進一個他們沒有時間學的新領域」的團隊做的。

基礎架構之外，Mersel 的內容引擎會盤點你的買家現在正在 ChatGPT 和 Perplexity 裡問的那些問題——漏斗底部的問題，像「Series A SaaS 公司 \[競爭對手\] 的最佳替代方案」。寫好的文章直接進你的 CMS，持續產出，同時接上 Google Search Console 和 GA4 的回饋迴圈。內容會根據實際被引用的表現來調整，不是憑感覺猜。

一家中型 B2B 金融科技客戶（整合型財務 OS，約 20 人公司），在 92 天內把品類聲量佔比從 3.1% 拉到 10.8%，拿到 94 次競爭性金融科技 prompt 的 AI 引用，20% 的 demo 需求跟 AI 搜尋有關。想了解 AI 導流怎麼轉化成業務成果，可以看我們的 [AI 流量分析](/zh-TW/blog/how-to-measure-ai-visibility)指南。

## 常見問題

**擋 GPTBot 會影響 Google 排名嗎？**

不會。Playwire 的發布商分析顯示，擋 `GPTBot` 對 Google 排名沒有影響。`GPTBot` 是 OpenAI 的訓練爬蟲，跟 Googlebot 完全是兩回事。你的 Google 排名由 Googlebot 的爬取和 Google 自己的演算法決定，跟你的 `GPTBot` 設定無關。你可以同時擋 `GPTBot` 和 `Google-Extended`，Google 搜尋完全不受影響。

**不小心擋了 OAI-SearchBot 會怎樣？**

OpenAI 的開發者文件寫得很明白：「選擇退出 OAI-SearchBot 的網站，將不會出現在 ChatGPT 的搜尋答案中。」也就是說，就算 `GPTBot` 之前已經爬過你的內容拿去訓練，你的東西也不會出現在 ChatGPT 即時搜尋結果裡。兩套系統完全獨立。不小心擋掉 `OAI-SearchBot` 是目前最常見、衝擊也最大的 AI 能見度失誤之一。

**怎麼知道 Cloudflare 有沒有幫我擋掉 AI 搜尋爬蟲？**

登入 Cloudflare 後台，到 Security > Bots 或「Control AI Crawlers」區塊，看 AI 爬蟲封鎖功能是不是開著的。然後去 server log 看有沒有回 403 給 `OAI-SearchBot`、`PerplexityBot` 或 `Claude-User`。ziptie.dev 的研究指出約 27% 的 B2B SaaS 和電商網站在不知情的狀況下就在 CDN 層擋了 LLM 爬蟲，所以就算你確定 `robots.txt` 沒問題，這個檢查還是要優先做。

**AI 爬蟲真的會乖乖照 robots.txt 走嗎？**

主要 AI 公司都公開承諾旗下具名爬蟲會遵守 `robots.txt`，OpenAI 和 Anthropic 都有記載在開發者文件裡，也都公開了合法 IP 範圍的 JSON feed 供驗證。但 `robots.txt` 說到底是一套君子協定，惡意爬蟲很常偽造 user agent 直接無視。如果你有真正需要保護的內容，靠 bot 管理平台和 WAF 層的 IP 白名單會比只靠 `robots.txt` 更可靠。

**`llms.txt` 採用率這麼低，現在做值得嗎？**

值得，原因有二。第一，零風險、低成本，一個小時內就能設好。第二，AI agent 和 LLM 搜尋工具越來越多被設計成會去找這個檔案，把它當成進入你網站內容架構的入口。Ahrefs 數據顯示目前只有約 10% 的網域有 `llms.txt`，現在部署就是一個明確的差異化信號。就算跟引用頻率的直接關聯還在研究中，讓 AI 有一份乾淨的內容地圖，絕對沒有壞處。

## 資料來源

1. [Gartner: Search Engine Volume Will Drop 25% by 2026](https://www.gartner.com/en/newsroom/press-releases/2024-02-19-gartner-predicts-search-engine-volume-will-drop-25-percent-by-2026-due-to-ai-chatbots-and-other-virtual-agents)
2. [Stronger Content: Gartner Search Engine Volume Decrease](https://strongercontent.com/gartner-search-engine-volume-to-decrease-by-25-thanks-to-ai/)
3. [Ahrefs: AI Bot Block Rates](https://ahrefs.com/blog/ai-bot-block-rates/)
4. [Superlines: AI Search Statistics](https://www.superlines.io/articles/ai-search-statistics/)
5. [Ziptie.dev: Technical SEO for AI Crawlability](https://ziptie.dev/blog/technical-seo-for-ai-crawlability/)
6. [Playwire: AI Scraping vs. Traditional SEO Crawling](https://www.playwire.com/blog/ai-scraping-vs-traditional-seo-crawling-what-publishers-need-to-know-about-blocking-ai)
7. [Vercel: The Rise of the AI Crawler](https://vercel.com/blog/the-rise-of-the-ai-crawler)
8. [SearchEngineWorld: Tracking OpenAI ChatGPT Bots](https://www.searchengineworld.com/tracking-openai-chatgpt-bots-a-fresh-guide-for-webmasters-site-owners-and-seos)
9. [OpenAI: Developer Documentation on Bots](https://developers.openai.com/api/docs/bots)
10. [Almcorp: Anthropic Claude Bots robots.txt Strategy](https://almcorp.com/blog/anthropic-claude-bots-robots-txt-strategy/)
11. [Lowtouch.ai: Cloudflare AI Data War](https://www.lowtouch.ai/cloudflare-just-fired-the-first-shot-in-the-ai-data-war/)
12. [llmrefs.com: Cloudflare Blocks AI Crawlers](https://llmrefs.com/blog/cloudflare-blocks-ai-crawlers)
13. [Searchviu: AI Crawlers JavaScript Rendering](https://www.searchviu.com/en/ai-crawlers-javascript-rendering/)
14. [Ahrefs: What Is llms.txt?](https://ahrefs.com/blog/what-is-llms-txt/)
15. [llmstxt.org: The llms.txt Standard](https://llmstxt.org/)

## 想看看你的 AI 流量真實狀況？

你的 `robots.txt` 可能設定正確，但網站對 AI 搜尋爬蟲來說還是看不到。CDN 檢查、渲染確認、引用追蹤——大多數團隊是在這些環節才發現真正的問題。

[跟 Mersel AI 團隊聊聊](/zh-TW/contact)，看看哪些 AI 爬蟲有成功到達你的網站、你的買家正在問哪些 prompt，以及什麼東西卡在你的內容和 AI 引用之間。

## 延伸閱讀

* [怎麼把網站內容轉化成 AI 爬蟲讀得懂的格式](/zh-TW/blog/how-to-translate-human-website-content-for-ai-crawlers)
* [做 Generative Engine Optimization 需要改程式碼嗎？](/zh-TW/blog/do-i-need-code-changes-for-generative-engine-optimization)
* [怎麼為 LLM 更新你的知識圖譜](/zh-TW/blog/how-to-update-your-knowledge-graph-for-llms)

```json
{"@context":"https://schema.org","@graph":[{"@type":"BlogPosting","headline":"GPTBot、ClaudeBot 這些 AI 爬蟲，到底該擋還是放行？","description":"教你在 robots.txt 裡正確區分 AI 訓練與搜尋爬蟲：保護內容不被訓練，又能維持 AI 搜尋能見度。","image":{"@type":"ImageObject","url":"https://www.mersel.ai/blog-covers/Software code testing-cuate.svg","width":1200,"height":630},"author":{"@type":"Person","@id":"https://www.mersel.ai/about#joseph-wu","name":"Joseph Wu","jobTitle":"CEO & Founder","url":"https://www.mersel.ai/about","sameAs":"https://www.linkedin.com/in/josephwuu/"},"publisher":{"@id":"https://www.mersel.ai/#organization"},"datePublished":"2026-03-13","dateModified":"2026-03-13","mainEntityOfPage":{"@type":"WebPage","@id":"https://www.mersel.ai/zh-TW/blog/how-to-block-or-allow-ai-bots-on-your-website"},"keywords":"AI 爬蟲, GPTBot, ClaudeBot, robots.txt, GEO, AI crawler, 技術 SEO, generative engine optimization","articleSection":"GEO","inLanguage":"zh-TW"},{"@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https://www.mersel.ai"},{"@type":"ListItem","position":2,"name":"Blog","item":"https://www.mersel.ai/zh-TW/blog"},{"@type":"ListItem","position":3,"name":"GPTBot、ClaudeBot 這些 AI 爬蟲，到底該擋還是放行？","item":"https://www.mersel.ai/zh-TW/blog/how-to-block-or-allow-ai-bots-on-your-website"}]},{"@type":"FAQPage","mainEntity":[{"@type":"Question","name":"擋 GPTBot 會影響 Google 排名嗎？","acceptedAnswer":{"@type":"Answer","text":"不會。Playwire 的發布商分析顯示，擋 `GPTBot` 對 Google 排名沒有影響。`GPTBot` 是 OpenAI 的訓練爬蟲，跟 Googlebot 完全是兩回事。你的 Google 排名由 Googlebot 的爬取和 Google 自己的演算法決定，跟你的 `GPTBot` 設定無關。你可以同時擋 `GPTBot` 和 `Google-Extended`，Google 搜尋完全不受影響。"}},{"@type":"Question","name":"不小心擋了 OAI-SearchBot 會怎樣？","acceptedAnswer":{"@type":"Answer","text":"OpenAI 的開發者文件寫得很明白：「選擇退出 OAI-SearchBot 的網站，將不會出現在 ChatGPT 的搜尋答案中。」也就是說，就算 `GPTBot` 之前已經爬過你的內容拿去訓練，你的東西也不會出現在 ChatGPT 即時搜尋結果裡。兩套系統完全獨立。不小心擋掉 `OAI-SearchBot` 是目前最常見、衝擊也最大的 AI 能見度失誤之一。"}},{"@type":"Question","name":"怎麼知道 Cloudflare 有沒有幫我擋掉 AI 搜尋爬蟲？","acceptedAnswer":{"@type":"Answer","text":"登入 Cloudflare 後台，到 Security > Bots 或「Control AI Crawlers」區塊，看 AI 爬蟲封鎖功能是不是開著的。然後去 server log 看有沒有回 403 給 `OAI-SearchBot`、`PerplexityBot` 或 `Claude-User`。ziptie.dev 的研究指出約 27% 的 B2B SaaS 和電商網站在不知情的狀況下就在 CDN 層擋了 LLM 爬蟲，所以就算你確定 `robots.txt` 沒問題，這個檢查還是要優先做。"}},{"@type":"Question","name":"AI 爬蟲真的會乖乖照 robots.txt 走嗎？","acceptedAnswer":{"@type":"Answer","text":"主要 AI 公司都公開承諾旗下具名爬蟲會遵守 `robots.txt`，OpenAI 和 Anthropic 都有記載在開發者文件裡，也都公開了合法 IP 範圍的 JSON feed 供驗證。但 `robots.txt` 說到底是一套君子協定，惡意爬蟲很常偽造 user agent 直接無視。如果你有真正需要保護的內容，靠 bot 管理平台和 WAF 層的 IP 白名單會比只靠 `robots.txt` 更可靠。"}},{"@type":"Question","name":"`llms.txt` 採用率這麼低，現在做值得嗎？","acceptedAnswer":{"@type":"Answer","text":"值得，原因有二。第一，零風險、低成本，一個小時內就能設好。第二，AI agent 和 LLM 搜尋工具越來越多被設計成會去找這個檔案，把它當成進入你網站內容架構的入口。Ahrefs 數據顯示目前只有約 10% 的網域有 `llms.txt`，現在部署就是一個明確的差異化信號。就算跟引用頻率的直接關聯還在研究中，讓 AI 有一份乾淨的內容地圖，絕對沒有壞處。"}}]}]}
```
