網站系統開發.物聯網

網站流量大增的原因-搜尋引擎(bots)/搜尋蜘蛛(spiders)

某天可能會發現,原本一個小站突然網站流量大增,但看來自己的客流量或反應也沒有增加多少,但可能要因此付出超過流量的費用,這真的是很痛啊~

接著去查看了網站的存取記錄,發現有很多是由各種搜尋引擎爬蟲,有時也稱為搜尋機器人(bots)或是搜尋蜘蛛(spiders),會爬取你的網站,搜尋有變動的內容並且重新更新搜尋引擎的搜尋檢索。

雖然有一些好的機器人可以提供有用的服務(例如Googlebot 和Bingbot,它們可以幫助您的網站被兩大搜尋引擎編入索引,以便潛在客戶可以找到您),但壞的機器人可能會透過以下方式對您的網站和業務造成各種損害:

  • 嘗試分散式阻斷服務 (DDoS) 第 7 層攻擊
  • 抓取您網站上可能被非法使用的私人信息,例如出售用戶資料。
  • 在其他網站上重新發布您的內容,導致內容重複和其他問題。

即使是好的機器人,如果管理不當,也可能會對您的伺服器資源造成額外的負擔,從而導致流量負載增加並降低網站的速度。 如果您有網站和伺服器,管理和阻止機器人(尤其是不良機器人)非常重要。然而,有兩個主要挑戰:

我們不能簡單地阻止所有機器人,因為有些好的機器人可能是有益的。
我們絕不希望無意中錯誤地阻止合法用戶。

robots.txt 文件是必須放在網站根目錄裡,如果你的網址是example.com 是可以讀取到的。

網址位置:http://example.com/robots.txt

如果沒有這個檔案的話,你可以使用純文件檔案建立一個新的robots.txt文件,並上傳網站根目錄。

AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot

阻擋語法範例如下:
User-agent: AhrefsBot
Disallow: /
User-agent: Baiduspider
Disallow: /

PetalBot:查IP發現的資訊如下,是華為的新加坡公司
Huawei International Pte. Ltd.
Usage Type: Search Engine Spider
Hostname(s): petalbot-114-119-146-244.petalsearch.com
Domain Name: huawei.com
Country: Singapore

GPTBot: GPTBot/1.2; +https://openai.com/gptbot
OpenAI公司