无码国产精品一区二区免费16_蜜芽久久人人超碰爱香蕉_亚洲一区二区三区乱码_2020视频在线精品国自产拍_亚洲日韩爆乳中文字幕欧美

專業(yè)的廣州網站建設、廣州網站制作公司為您服務,電話:020-85548809,29883069 手機訪問
微信關注
關注奇億廣州網站建設微信
網站導航
新聞中心
首頁>新聞中心>網站優(yōu)化

淺談百度快照抓取網站的原理及問題

添加時間:2012/8/10 13:24:20    編輯:奇億網站建設公司

    
    網站在搜索引擎(SE)里的具體表現(xiàn),是每個SEO都非常關注的問題,SEO工程師經常根據(jù)快照來分析網站的狀態(tài),針對快照的更新情況來做調整,以便更好地優(yōu)化或者提升網站的綜合指標。快照,在搜索引擎中的應用,為分析網站提供了有利的條件因素。
  我們拿百度來舉個例子,其他搜索引擎的原理都大同小異。百度快照的定義,參見百度搜索幫助:每個未被禁止搜索的網頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。而官方給百度快照賦予的功能就是,在查詢結果中將要打開的網頁無法打開或者載入速度很慢的時候,“百度快照”可以快速瀏覽頁面內容。
百度快照的原理,百度搜索引擎內部搜索程序對網絡上的數(shù)據(jù)進行組織處理的過程,對文件數(shù)據(jù)會進行索引存儲的具體體現(xiàn)就是百度快照。通俗來講,百度獲取數(shù)據(jù)的過程,就是分發(fā)出百度蜘蛛,在整個互聯(lián)網通過彼此的鏈接互通情況下獲取數(shù)據(jù);而百度快照是在百度蜘蛛通過某一鏈接到達新的網站或單個頁面時,對這個網站首頁或者單個頁面的數(shù)據(jù)存儲;百度內部機制會根據(jù)具體的算法,對數(shù)據(jù)進行歸類索引緩存,用戶檢索時,百度在通過提取數(shù)據(jù)庫服務器中索引的緩存數(shù)據(jù),就看到了的快照。
我們經常會發(fā)現(xiàn)百度快照有時候更新,有時候卻又很久都不變,那百度快照到底有什么幾率呢,其實這一切都在服務器日志中可以看到。
  百度快照很多站長在抱怨我的快照一直停留在23 24 16這樣的時間 每個月更新一次,有的甚至半年沒更新
  快照也是一個搜索引擎的附加程序作為搜索引擎的一環(huán) 所有的程序都要求是處理最優(yōu)結果,節(jié)省運算時間為前提處理數(shù)據(jù)。所以百度對于每個網站都有一個快照更新的評級,在百度這個現(xiàn)象很明顯,當然對主頁和內頁的評級也是不同的這個不多贅述
  他評級的標準就是按 幾次蜘蛛抓取的數(shù)據(jù)分析,數(shù)據(jù)大幅度更新(比較一組數(shù)據(jù),更新量大到一個值的時候)
  舉個很概念的例子:百度標準數(shù)據(jù)更新值如果是7,你頁面蜘蛛抓取第一次和第二次做對比 更新值是3不達標,第三次抓取跟第一次對比數(shù)據(jù)更新是8了,OK截取第一次和第三次之間的時間間隔。
  當然這個是很籠統(tǒng)的說法,百度要進行幾次對比后取個均衡量做評判,這個就不是我們能知道的,但是這樣的一個算法的原理我們知道了
  這樣的做法就是可以讓快照程序有針對性的去更新網站的快照,而不是所有網站不分類別一起更新,這樣對運算的時間和成本節(jié)省不少
  知道有這么個評級之后所有的事情都好辦了,這個評級百度沒有公開,目前也不知道百度對一個網站重新評估 更新 評級的間隔是多少時間
  但是SEO要做的事情如果是讓更新快照的頻率更高的話其實很簡單
  既然我們知道原理了,我們就有針對的操作方法
  第一步 查看你的服務器日志,了解一下百度蜘蛛對于你的網站頁面抓取的規(guī)律
  第二步 知道蜘蛛對一個頁面抓取的時間間隔之后,列出一個內容更新時間表
  第三步 在每相鄰兩次次蜘蛛抓取間隔中更新你的頁面內容,集中在這個時間段內更新(舉例:比如你本來更新內容是10小時,但是這10小時中蜘蛛已經來過三次了那么你就要想辦法把這10小時的量更新在一次間隔中盡量壓縮-以上舉的時間只是個例子具體看網站具體情況)能夠頻繁的更新是最好的了
  百度快照的常見問題:
  一、快照不更新。
  問題分析:導入鏈接扇入面積不大,也就是網站的外部鏈接過少;網站長時間不更新或更新沒有規(guī)律;對網站進行改版或空間不穩(wěn)定。
  解決辦法:通過對百度快照定義原理的理解,百度只有通過鏈接抓取、索引本站數(shù)據(jù)建立快照的,為百度蜘蛛營造更順暢的多條通路到達網站就是最好的解決辦法。
  二、快照更新不及時。
  問題分析:和快照不更新問題一樣,但在這里說明的原因是百度的審核機制,會對網站數(shù)據(jù)過濾,甚至人工審核,不排除此情況導致的原因。
  解決辦法:同快照不更新,同時網站內部不要出現(xiàn)我國特色的河蟹內容。
  三、首頁快照回檔。
  問題分析:對網站進行改版或者空間不穩(wěn)定;網站本身或者鏈接網站被K。
  解決辦法:不要經常對網站主題或者各項設置參數(shù)進行變動,盡量選擇穩(wěn)定快速的空間服務商,網站不要頻繁使用非常規(guī)推廣手段,網站內容盡量原創(chuàng)實時更新,不要大面積進行采集。
  四、刪除快照。
  解決辦法:http://www.baidu.com/search/web_tousu.html#網頁快照處理
  P.S. 百度只保留文本內容,所以,那些圖片、音樂等非文本信息,快照頁面還是直接從原網頁調用。如果您無法連接原網頁,那么快照上的圖片等非文本內容,會無法顯示。當原網頁進行了修改、刪除或者屏蔽后,百度搜索引擎會根據(jù)技術安排自動修改、刪除或者屏蔽相應的網頁快照。
  通過百度快照的觀測,可以確保網站正常的收錄排名,給站長和優(yōu)化推廣人員一項參考指標。在實際操作過程中,不乏出現(xiàn)相關的其他問題,本文不再詳細講解,但是都可以圍繞搜索引擎運作的原理來尋找根本的原因和解決的辦法。
    百度是SEO的神,它的一舉一動我們都要時刻注意,否則我們的網站就悲劇了,如果知道了它的搜索原理就好辦多了。