網站流量大增的原因-搜尋引擎(bots)/搜尋蜘蛛(spiders)

某天可能會發現，原本一個小站突然網站流量大增，但看來自己的客流量或反應也沒有增加多少，但可能要因此付出超過流量的費用，這真的是很痛啊～

接著去查看了網站的存取記錄，發現有很多是由各種搜尋引擎爬蟲，有時也稱為搜尋機器人(bots)或是搜尋蜘蛛(spiders)，會爬取你的網站，搜尋有變動的內容並且重新更新搜尋引擎的搜尋檢索。

問題是…有些我不認識.. 有些我不想要…還有些不道德？

雖然有一些好的機器人可以提供有用的服務（例如Googlebot 和Bingbot，它們可以幫助您的網站被兩大搜尋引擎編入索引，以便潛在客戶可以找到您），但壞的機器人可能會透過以下方式對您的網站和業務造成各種損害：

嘗試分散式阻斷服務 (DDoS) 第 7 層攻擊。
抓取您網站上可能被非法使用的私人信息，例如出售用戶資料。
在其他網站上重新發布您的內容，導致內容重複和其他問題。

即使是好的機器人，如果管理不當，也可能會對您的伺服器資源造成額外的負擔，從而導致流量負載增加並降低網站的速度。如果您有網站和伺服器，管理和阻止機器人（尤其是不良機器人）非常重要。然而，有兩個主要挑戰：

我們不能簡單地阻止所有機器人，因為有些好的機器人可能是有益的。
我們絕不希望無意中錯誤地阻止合法用戶。

如何用robts.txt 這個檔案去控制搜尋蜘蛛

robots.txt 文件是必須放在網站根目錄裡，如果你的網址是example.com 是可以讀取到的。

網址位置：http://example.com/robots.txt

如果沒有這個檔案的話，你可以使用純文件檔案建立一個新的robots.txt文件，並上傳網站根目錄。

最常被阻擋的搜尋引擎使用者代理

AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot

阻擋語法範例如下：
User-agent: AhrefsBot
Disallow: /
User-agent: Baiduspider
Disallow: /

最近新發現的搜尋引擎使用者代理

PetalBot：查IP發現的資訊如下，是華為的新加坡公司
Huawei International Pte. Ltd.
Usage Type: Search Engine Spider
Hostname(s): petalbot-114-119-146-244.petalsearch.com
Domain Name: huawei.com
Country: Singapore

GPTBot： GPTBot/1.2; +https://openai.com/gptbot
OpenAI公司

網站流量大增的原因-搜尋引擎(bots)/搜尋蜘蛛(spiders)

edwintsai