添加時間:2016/10/21 16:06:52 編輯:奇億網站建設公司
記得互聯(lián)網剛進入中國時,央視有一欄目是叫做互聯(lián)網生存大賽,就是把一檔子人關起來,只有互聯(lián)網,看誰能通過它買到自己想要的東西生存下來。當時覺得真不容易,這些人必定是高手。當時就說這是未來的人生活的常態(tài),足不出戶就可以利用互聯(lián)網活下來,F(xiàn)在看來,其實更有趣的是把人們遠離互聯(lián)網,看他們能否活下來。
進入主題,近段時間9月底與10月前 許多站長經歷堪比過山車般的持起彼伏,在9月23日的時候,百度來了一波大更新,許多新站終于是跳出一大部分收錄。而正當以為可以高興的迎接國慶的時候,一大波網站被百度進行懲罰。百度的動作是越來越猜不透了。
百度大更新蜘蛛抓取痕跡
一大波被百度懲罰的網站正悄悄來襲
網站日志作為站長每日必看的東西,如果是簡單的查看網站蜘蛛的抓取,這些借助愛站的工具包就能看出網站是否受蜘蛛歡迎了,但是如果要對日志進行詳細的分析,還是的老老實實的查看日志文件。而最近用愛站工具查看蜘蛛概要分析的時候,發(fā)現(xiàn)百度蜘蛛總停留時間幾乎為0,而百度蜘蛛訪問次數(shù)以及總抓取量卻正常,接下來我們一起研究下這個問題:
百度抓取總停留時間
每當網站有啥病痛的時候,最著急的就是站長了,感覺這時候誰都靠不住,只能自己去琢磨了。這時候沒別的辦法,只能先去查看網絡日志。不看不知道,一看嚇一跳,發(fā)現(xiàn)返回的404錯誤多的幾乎能上天。
看到這里的時候,幾乎嚇了一跳,哪里跑出來的錯誤頁面,既然有幾萬條。等接著往下看的時候發(fā)現(xiàn)幾乎都是同一IP抓取的,到底是何方神圣,能集中的那么厲害。慢慢發(fā)現(xiàn)看的時候發(fā)現(xiàn)一些baidu的字眼,看到百度就好辦了,先看一下這個IP是不是百度爬蟲的,發(fā)現(xiàn)之后好像是百度云觀測的爬蟲。
然后往回想一下之前在百度站長平臺使用過網站體檢,發(fā)現(xiàn)體驗度太低之后,去百度云觀測設置網站保護,估計是因為這個原因。而返回這些錯誤的404頁面基本都是不存在的頁面,而結合百度云觀測可以知道,這應該是百度云觀測的測試蜘蛛,測試網站的安全性,它模仿木馬的攻擊去抓取網站鏈接,返回404證明攻擊不成功。而大量的404返回會照成百度蜘蛛的誤判,我們知道蜘蛛兌404是很反感的,所以接觸一些之后就馬上回頭,照成這次的停留時間基本0。
好了,困擾在心頭的結終于打開了,各位別看好像很輕松的就解決了,其中的辛苦想必只有自己知道,而單純解決這個問題都耗費了幾天時間,因為不是每次對網站操作過的事情都能像電影一樣過一遍。而這也正是有趣的地方,除了是有涉及違規(guī)的網站外,正常的網站出現(xiàn)問題如何解決是對一個站長的挑戰(zhàn),而如何處理這份挑戰(zhàn)就變的相當?shù)挠腥ち恕?/span>