什麼是 AI 爬蟲？跟 Googlebot 差在哪？

本頁目錄

重點摘要一段話搞懂 AI 爬蟲跟 Googlebot 的差別為什麼大家搞混：三個根本原因你必須搞懂的爬蟲分類 Googlebot 和 AI 爬蟲的行為差異一步步讓你的網站被 AI 爬蟲讀懂自己做為什麼做不完交給專家：Mersel AI 怎麼處理常見問題資料來源延伸閱讀

AI 爬蟲（AI bot crawler）是一種專門用來抓取你網站內容、餵給大型語言模型的網路機器人，用途可能是訓練資料，也可能是即時生成答案。跟 Googlebot 不同的是，Googlebot 建索引是為了把使用者導到你的頁面，AI 爬蟲則是把你的內容「吃進去」，直接產出答案——使用者根本不用點進你的網站確認。正因為這個根本差異，你的 Google 排名可能穩如磐石，但你在 AI 推薦中的佔比卻悄悄歸零。

這件事現在很急，因為根據 Search Engine Land 的預測，傳統搜尋量到 2026 年將下降 25%，使用者正在大量遷移到 AI 答案引擎。如果 AI 爬蟲讀不到你的網站，你不是在 ChatGPT 或 Perplexity 裡排名變低——你是根本不存在。

這篇指南會說明 AI 爬蟲跟 Googlebot 在技術和行為上到底差在哪、哪些機器人該放行哪些該擋，以及一步一步讓你的網站變成「AI 可引用」狀態的基礎架構調整。

重點摘要

AI 爬蟲分成兩種截然不同的類別：訓練型爬蟲（GPTBot、CCBot）用來建立 LLM 權重，不會帶來任何流量；搜尋/接地型抓取器（OAI-SearchBot、PerplexityBot）則驅動即時引用。
Googlebot 使用 headless Chrome 執行 JavaScript。根據 Vercel 分析超過 13 億次 AI 爬蟲抓取的結果，主要 AI 爬蟲完全不執行 JavaScript。一個用 React 或 Vue 建的網站可以在 Google 排第一，卻在 ChatGPT 裡完全看不到。
Cloudflare 的數據顯示 ClaudeBot 的爬取對流量比最高達到約 500,000:1，而 Googlebot 大約是 14:1 到 30:1。AI 引擎大量抓取但幾乎不回饋流量——除非你專門為引用做優化。
從 2024 年 5 月到 2025 年 5 月，GPTBot 的爬取量暴增 305%，AI 爬蟲流量是你伺服器負載中成長最快的部分之一。
根據 Cogni 的網域追蹤數據，在 robots.txt 中封鎖 PerplexityBot，你的品牌會在 48 小時內從 Perplexity 的引用中消失。
解決方案需要兩個層面：讓 AI 讀得懂的基礎架構（伺服器端渲染、schema、llms.txt），加上為 LLM 擷取而設計的 prompt 導向內容。

一段話搞懂 AI 爬蟲跟 Googlebot 的差別

Googlebot 爬你的網站是為了建立連結型索引，把使用者送到你的頁面。AI 爬蟲爬你的網站，不是為了擷取訓練資料給大型語言模型，就是為了即時取得事實來生成答案。Googlebot 的目的是帶來流量，AI 爬蟲的目的是擷取內容。這一個差別，就足以改變你在爬蟲存取上的每一個技術決策。

以下所有內容都從這個定義出發。

為什麼大家搞混：三個根本原因

大多數技術 SEO 人員是在兩方世界中學會爬蟲管理的：你的爬蟲（Googlebot）和其他所有的（抓取器、惡意機器人）。這個模型在 2023 年被打破了——OpenAI 推出 GPTBot 後，「其他所有」這個類別裡突然出現了對業務有實質影響的機器人，而不只是吃伺服器資源的東西。

三個根本原因造成了混淆。

User-agent 清單爆炸。 Googlebot 多年來只有一個主要的 user-agent 字串，現在橫跨 OpenAI、Anthropic、Google 的 AI 訓練機器人（Google-Extended，跟 Googlebot 是分開的）、Meta、Common Crawl、Perplexity 等，有幾十個 AI 機器人標識符。大多數 WAF 封鎖清單當初不是為這種情況設計的。

GA4 看不到 AI 爬蟲的造訪。 AI 抓取器不會觸發客戶端 JavaScript 分析，所以在 GA4 裡不會產生工作階段、事件，也不會有歸因。行銷人員看著流量沒什麼變化就以為一切正常，殊不知 AI 引擎正在背景大量吸走他們的內容。

目標根本就矛盾。 SEO 是為了取得 Googlebot 的認可讓人類使用者點進來。GEO 是為了取得 AI 爬蟲的認可讓你的內容被引用——而使用者根本不會離開 AI 的介面。對一邊有效的技巧不會自動對另一邊也有效。

你必須搞懂的爬蟲分類

上圖呈現三種爬蟲類別：Googlebot（索引型、帶來流量）、AI 訓練型爬蟲（零流量、建立 LLM 權重）、AI 搜尋/接地型抓取器（即時 RAG、唯一能帶來 AI 引用的機器人）。多數品牌把三者一視同仁，結果既損失了能見度，又做出錯誤的封鎖決策。

在動你的 robots.txt 之前先搞懂這個分類，不是建議，是必要。擋錯類別，你的品牌一夜之間就從 AI 推薦中消失。

Googlebot 和 AI 爬蟲的行為差異

面向	Googlebot	AI 訓練型爬蟲	AI 搜尋/接地型抓取器
JavaScript 渲染	完整 headless Chrome 執行	不執行	不執行
每次請求平均載荷	53 KB	134 KB	134 KB
爬取對流量比	約 14:1 到 30:1	無限大（零流量）	ClaudeBot 最高約 500,000:1
爬取頻率	比 AI 爬蟲多達 2.6 倍	不規則，無預算邏輯	隨使用者查詢即時觸發
GA4 流量歸因	工作階段層級	看不到	看不到
主要目的	建立搜尋結果索引	LLM 預訓練	即時答案接地
策略建議	允許並優化	依區段評估	允許，並針對引用優化

來源：Benson SEO、Cloudflare、Vercel

一步步讓你的網站被 AI 爬蟲讀懂

第一步：透過伺服器日誌稽核 AI 爬蟲存取狀況

在改任何東西之前，先搞清楚現狀。直接從原始伺服器日誌查詢 user-agent 字串，包括 GPTBot、ClaudeBot、PerplexityBot、OAI-SearchBot 和 ChatGPT-User。GA4 看不到這些造訪，因為 AI 抓取器不會執行你的客戶端追蹤腳本。

檢查每個機器人收到的 HTTP 狀態碼。403 回應通常代表你的 WAF（Cloudflare Bot Management 是常見的元兇）把 AI 爬蟲當成惡意抓取器擋掉了。根據 AIBoost 的研究，很多網站在 robots.txt 裡明明允許 AI 機器人，卻在防火牆層不知不覺地擋掉了。

這一步一定要先做，因為後面所有決策都取決於你知道哪些機器人目前能存取你的內容、以及它們到了之後看到什麼。

第二步：稽核並修正你的 robots.txt

知道哪些機器人被擋之後，制定差異化的策略。不要用一刀切的全部允許或全部封鎖。

立刻允許： OAI-SearchBot、PerplexityBot、ChatGPT-User。這些是接地型抓取器，擋掉它們等於把你的品牌從即時 AI 引用中移除。Cogni 的網域追蹤發現，封鎖 PerplexityBot 的網站在 48 小時內 Perplexity 引用歸零。

策略性評估： GPTBot、Google-Extended、Anthropic-ai。這些訓練型爬蟲會在 LLM 權重中建立對你品牌的長期語意理解。對大多數 B2B SaaS 公司來說，在行銷和產品頁面允許它們、在原始資料匯出或專有文件上封鎖，是最合理的做法。

想看各機器人的詳細設定指南，如何在你的網站上封鎖或允許 AI 機器人涵蓋了每個主要的 user-agent 字串和建議策略。

第三步：修復 JavaScript 渲染的落差

爬蟲能到你的網站之後，它們還得能讀懂內容。這是最常被忽略的缺口。

Vercel 分析了超過 13 億次來自 ChatGPT、Claude 和 Perplexity 的 AI 爬蟲抓取，發現沒有任何 JavaScript 執行的證據。當機器人造訪 React 或 Vue 的 SPA，它只會下載最初的 HTML 殼。如果你的產品描述、定價表和 FAQ 都靠 JavaScript 載入，AI 爬蟲看到的就是一張白紙。

解法是伺服器端渲染（SSR）或動態渲染：設定你的伺服器偵測 AI user-agent，然後回傳預先渲染好的靜態 HTML。這跟人類訪客在 JavaScript 執行後看到的內容一模一樣，只是在第一次 HTTP 請求時就直接送出，不需要客戶端執行。

在 Google 排第一的頁面，如果靠的是客戶端渲染，在 ChatGPT 裡可能完全看不到。生成式引擎優化指南有說明這個落差在不同網站架構下怎麼影響引用率。

第四步：部署 Schema Markup 和 llms.txt

爬蟲讀得到你的頁面之後，結構化資料幫助它們理解讀到的內容。

Schema markup： 部署 FAQPage、Organization 和 Product 實體的 JSON-LD schema。AI 機器人靠這些結構化的實體地圖來理解你的品牌、你的產品類別和競品之間的關係。乾淨的實體定義直接影響 LLM 在回覆中怎麼描述你的品牌。

llms.txt： 在 yourdomain.com/llms.txt 放一個純 Markdown 檔案。這是 Jeremy Howard 在 2024 年底提出的，功能類似 AI 專用的 sitemap——告訴 LLM 哪些頁面有你最權威的內容，繞過導航、廣告和 JavaScript 密集的版面。SE Ranking 分析 30 萬個網域後發現目前只有 10% 的採用率，代表早期導入是一個低成本的競爭優勢。

搭配的 /llms-full.txt 可以放你核心產品文件和比較頁面的完整 Markdown 輸出，專門針對 LLM 的 context window 格式化。

第五步：用 Prompt 導向的方式重構內容

傳統的關鍵字研究對不上買家查詢 AI 引擎的方式。買家問 Perplexity「哪個合規工具能整合 Rippling，適合 Series A 新創？」——這種問題他們不會打進 Google，Ahrefs 裡也沒有搜尋量。

Prompt 導向內容從買家在評估廠商時實際問 AI 的對話問題出發，來源是銷售通話錄音和競品引用模式。每篇文章開頭都要在前 60 到 120 字內給出直接、事實型的回答。AI 引擎會把頁面切成向量檢索的區塊，它們不是按敘事邏輯在讀。高事實密度、具體數據、明確的產品定位，每次都比精心打磨的行銷文案表現好。

這類內容策略是生成式引擎優化軟體平台的核心，但不同工具之間的執行品質差距很大。

第六步：建立數據驅動的回饋循環

內容開始發布、基礎架構上線之後，串接 Google Search Console、GA4 和伺服器日誌數據。追蹤哪些文章觸發了 AI 機器人的爬取、哪些產生了來自 AI 引擎的後續流量。AI 推薦流量一旦出現，轉換率是標準自然搜尋的 4.4 倍，因為這些訪客正在積極評估一個推薦。

用這些訊號來更新現有文章。一篇因為某個 prompt 獲得引用的文章，可以進一步優化來瞄準同品類的相鄰 prompt，形成時間複利。

為什麼這個順序是對的： 伺服器日誌稽核在你改任何東西之前建立基準。修正 robots.txt 和 WAF 設定確保爬蟲到得了你的網站。修復 JavaScript 渲染確保它們讀得懂。Schema 和 llms.txt 確保它們理解正確。Prompt 導向內容確保正確的查詢觸發引用。回饋循環確保系統持續進步，而不是隨 AI 模型更新而退化。

自己做為什麼做不完

大多數技術 SEO 團隊可以自己搞定第一步和第二步。第三到六步才是執行崩潰的地方。

渲染修復需要工程 sprint 時間。 為 AI user-agent 設定動態渲染或 SSR 會動到核心基礎架構，在大多數團隊裡這跟產品路線圖搶資源。

Prompt mapping 在大多數組織裡沒有成熟方法論。 關鍵字工具抓不到對話式 AI 查詢。建立 prompt map 需要取得銷售通話錄音、競品引用監控，以及理解特定 LLM 怎麼選擇來源。

回饋循環需要整合工作。 把伺服器日誌、GSC、GA4 和 AI 流量歸因串成一個統一訊號，不是裝個外掛就好。需要客製化工具或專用平台。

AI 模型更新會打破靜態設定。 2023 年 GPTBot 推出後，前 1,000 大網站中有 26% 到 35% 不分青紅皂白地封鎖了 GPTBot，很多是從 GitHub 複製封鎖清單，根本沒搞懂哪些機器人帶來引用、哪些只消耗頻寬。一次性的設定會隨模型更新爬取行為而失效。

想深入了解 AI 機器人造訪你的網站時看到什麼，AI 流量分析有說明如何解讀伺服器日誌數據和找出爬蟲存取的缺口。

交給專家：Mersel AI 怎麼處理

「要把 GEO 做好，必須在基礎架構和內容兩個層面同步執行。多數公司能診斷問題，但沒有內部能量以要求的節奏同時跑兩邊。」——Mersel AI 團隊，根據 SaaS、金融科技和電商客戶的成果經驗。

Mersel AI 以全代操服務同時執行兩個層面，客戶端不需要投入任何工程資源。

第一層，AI 原生基礎架構： Mersel 部署 AI user-agent 的動態渲染、與品牌實體關係對齊的 JSON-LD schema、llms.txt 設定，以及 LLM 需要的內容關係內部連結。前台訪客看不出任何差異，現有設計、前端和 SEO 訊號完全不受影響。

第二層，引用優先內容引擎： 從買家實際的對話提問出發，Mersel 將可直接發布的文章交付到客戶的 CMS。每篇開頭都有直接的事實回答，結構專為 LLM 擷取設計。串接 Google Search Console、GA4 和 AI 來源流量數據，系統追蹤哪些文章獲得引用，並用這些訊號更新現有內容。早期文章會隨訊號累積變得越來越有效。

有一點要直說：Mersel AI 是全代操服務，不是自助式儀表板。如果你需要即時 prompt 監控加上自己操作的介面，Profound 或 AthenaHQ 之類的平台會更適合內部分析師的工作流程。Mersel 適合的是想把執行交出去、而不是多一個要管的工具的團隊。

一家 Series A 金融科技新創用 Mersel 的雙層做法，在 92 天內把 AI 能見度從 2.4% 拉到 12.9%，在追蹤的 prompt 中累積 94 次引用，20% 的 Demo 請求歸因於 AI 搜尋影響。

想知道你目前的 AI 能見度長什麼樣，看看你的真實 AI 流量。

常見問題

GPTBot 和 OAI-SearchBot 有什麼差別？

GPTBot 是 OpenAI 的訓練型爬蟲，它下載網頁內容來建立和更新大型語言模型的權重。它不會帶來任何流量，因為資料是餵給後端模型的，不是前端引用。OAI-SearchBot 是 OpenAI 的搜尋接地抓取器，它即時取得內容來為 ChatGPT 的答案提供事實根據——這才是讓你的網站能在 ChatGPT 回覆中被引用的機制。

封鎖 GPTBot 會影響我的 SEO 嗎？

封鎖 GPTBot 不會影響你的 Google 排名，因為 Googlebot 和 GPTBot 是完全獨立的系統。但封鎖 GPTBot 可能降低 OpenAI 模型對你品牌的長期語意理解，進而減少你在 ChatGPT 中的引用頻率。根據 Cogni 的研究，封鎖 PerplexityBot 的影響更直接：引用率在 48 小時內歸零。

AI 爬蟲讀得到我的 React 或 Vue 網站嗎？

如果你靠客戶端渲染，幾乎可以確定讀不到。Vercel 分析超過 13 億次 AI 爬蟲抓取，發現主要 AI 機器人完全沒有執行 JavaScript 的證據。React 或 Vue 的 SPA 通常回傳一個空的 HTML 殼，JavaScript 跑完才有內容。AI 爬蟲只看到那個空殼。解法是伺服器端渲染或動態渲染，為 AI user-agent 提供預先渲染好的 HTML。

llms.txt 是什麼？我需要嗎？

llms.txt 是放在網域根目錄的純 Markdown 檔案，告訴 AI 模型哪些頁面有你最權威的內容，格式專為 LLM 的 context window 設計。由 Jeremy Howard 在 2024 年底提出。SE Ranking 分析 30 萬個網域後發現目前只有 10% 的採用率，跟引用頻率之間也還沒有確認的直接相關。但業界共識是把它當成低成本的可發現性保險——為未來的 LLM 訓練週期預先卡位。

GA4 看不到 AI 爬蟲流量，怎麼衡量？

你需要原始伺服器日誌分析。直接在日誌中查詢 AI user-agent 字串（GPTBot、PerplexityBot、ClaudeBot、OAI-SearchBot、ChatGPT-User），檢查每個收到的 HTTP 狀態碼。GA4 看不到是因為 AI 抓取器不執行客戶端追蹤腳本。Cloudflare Radar 和 Dark Visitors 外掛等邊緣工具可以補充伺服器日誌數據，在網路層提供機器人級別的流量拆解。