Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級(jí)的,優(yōu)質(zhì)的網(wǎng)頁會(huì)被分配到重要索引庫,普通網(wǎng)頁會(huì)待在普通庫,再差一些的網(wǎng)頁會(huì)被分配到低級(jí)庫去當(dāng)補(bǔ)充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。 那么,哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實(shí)總的原則就是一個(gè):對用戶的價(jià)值。包括卻不僅于: 1、有時(shí)效性且有價(jià)值的頁面:在這里,時(shí)效性和價(jià)值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時(shí)效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價(jià)值面頁,也是百度不愿看到的. 2、內(nèi)容優(yōu)質(zhì)的頁面:頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點(diǎn)和評(píng)論,給用戶更豐富全面的內(nèi)容。 3、高價(jià)值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。 4、重要個(gè)人頁面:這里僅舉一個(gè)例子,科比在新浪微博開戶了,即使他不經(jīng)常更新,但對于百度來說,它仍然是一個(gè)極重要的頁面。 哪些網(wǎng)頁無法被收錄? 上述優(yōu)質(zhì)網(wǎng)頁進(jìn)了索引庫,那其實(shí)互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫前的篩選環(huán)節(jié)被過濾掉了。那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢: 1、重復(fù)內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。 2、主體內(nèi)容空短的網(wǎng)頁 1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會(huì)被搜索引擎拋棄 2)加載速度過慢的網(wǎng)頁,也有可能被當(dāng)作空短頁面處理,注意廣告加載時(shí)間算在網(wǎng)頁整體加載時(shí)間內(nèi)。 3)很多主體不突出的網(wǎng)頁即使被抓取回來也會(huì)在這個(gè)環(huán)節(jié)被拋棄。 這里在提醒各位一個(gè)細(xì)節(jié),大家在新站建好的時(shí)候,最好是填充原創(chuàng)內(nèi)容,不要網(wǎng)站一上線就抄襲,百度會(huì)把你的內(nèi)容放到他們收錄的數(shù)據(jù)庫對比的,如果對比重復(fù)度過高,那可能還是比較難收錄的。
|