某天可能會發現,原本一個小站突然網站流量大增,但看來自己的客流量或反應也沒有增加多少,但可能要因此付出超過流量的費用,這真的是很痛啊~
接著去查看了網站的存取記錄,發現有很多是由各種搜尋引擎爬蟲,有時也稱為搜尋機器人(bots)或是搜尋蜘蛛(spiders),會爬取你的網站,搜尋有變動的內容並且重新更新搜尋引擎的搜尋檢索。
問題是…有些我不認識.. 有些我不想要…還有些不道德?
雖然有一些好的機器人可以提供有用的服務(例如Googlebot 和Bingbot,它們可以幫助您的網站被兩大搜尋引擎編入索引,以便潛在客戶可以找到您),但壞的機器人可能會透過以下方式對您的網站和業務造成各種損害:
- 嘗試分散式阻斷服務 (DDoS) 第 7 層攻擊。
- 抓取您網站上可能被非法使用的私人信息,例如出售用戶資料。
- 在其他網站上重新發布您的內容,導致內容重複和其他問題。
即使是好的機器人,如果管理不當,也可能會對您的伺服器資源造成額外的負擔,從而導致流量負載增加並降低網站的速度。 如果您有網站和伺服器,管理和阻止機器人(尤其是不良機器人)非常重要。然而,有兩個主要挑戰:
我們不能簡單地阻止所有機器人,因為有些好的機器人可能是有益的。
我們絕不希望無意中錯誤地阻止合法用戶。
如何用robts.txt 這個檔案去控制搜尋蜘蛛
robots.txt 文件是必須放在網站根目錄裡,如果你的網址是example.com 是可以讀取到的。
網址位置:http://example.com/robots.txt
如果沒有這個檔案的話,你可以使用純文件檔案建立一個新的robots.txt文件,並上傳網站根目錄。
最常被阻擋的搜尋引擎使用者代理
AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot
阻擋語法範例如下:
User-agent: AhrefsBot
Disallow: /
User-agent: Baiduspider
Disallow: /
最近新發現的搜尋引擎使用者代理
PetalBot:查IP發現的資訊如下,是華為的新加坡公司
Huawei International Pte. Ltd.
Usage Type: Search Engine Spider
Hostname(s): petalbot-114-119-146-244.petalsearch.com
Domain Name: huawei.com
Country: Singapore
GPTBot: GPTBot/1.2; +https://openai.com/gptbot
OpenAI公司