什么是搜索引擎的Spider(蜘蛛)?
- 作者:新網(wǎng)
- 來源:新網(wǎng)
- 瀏覽:100
- 2018-02-07 16:25:02
什么是搜索引擎的Spider(蜘蛛)?現(xiàn)在做網(wǎng)站優(yōu)化的管理員都知道我們得到了百度權(quán)重就是根據(jù)搜索引擎的Spider(蜘蛛)給我們網(wǎng)站做出的評分,這里新網(wǎng)小編就為大家具體分析一下什么是搜索引擎的Spider(蜘蛛)。
什么是搜索引擎的Spider(蜘蛛)?現(xiàn)在做網(wǎng)站優(yōu)化的管理員都知道我們得到了百度權(quán)重就是根據(jù)搜索引擎的Spider(蜘蛛)給我們網(wǎng)站做出的評分,這里新網(wǎng)小編就為大家具體分析一下什么是搜索引擎的Spider(蜘蛛)。
網(wǎng)頁內(nèi)容也是有時效性的,所以Spider對不同網(wǎng)頁的抓取頻率也要有一定的策略性, 否則可能會使得索引庫中的內(nèi)容都很陳舊,或者該更新的沒更新,不該更新的卻浪費資源更新了,甚至還會出現(xiàn)網(wǎng)頁已經(jīng)被刪除了,但是該頁面還存在于搜索結(jié)果中的情況。那么Spider一 般會使用什么樣的再次抓取和更新策略呢?
再次,互聯(lián)網(wǎng)中的網(wǎng)頁總有一部分是沒有外部鏈接導(dǎo)入的,也就是常說的“暗網(wǎng)”,并且這 部分網(wǎng)頁也是需要呈現(xiàn)給廣大網(wǎng)民瀏覽的,此時Spider就要想方設(shè)法針對處于暗網(wǎng)中的網(wǎng)頁進 行抓取。當(dāng)下百度是如何來解決這個暗網(wǎng)問題的呢?
最后,大型搜索引擎的Spider不可能只有一個,為了節(jié)省資源,要保證多個Spider同時作 業(yè)且抓取頁面不重復(fù);又由于各地區(qū)數(shù)據(jù)中心分配問題,搜索引擎一般不會把Spider
服務(wù)器放置在一個地區(qū),會多地區(qū)同時作業(yè),這兩方面就涉及分布式抓取的策略問題。那么一般搜索引 擎的Spider會采用什么樣的分布抓取策略呢?
接下來逐一介紹一般的搜索引擎Spider在面臨以上問題時采用的是什么策略,并詳細地了解一下整個搜索引擎最上游的Spider到底是如何工作的,以及一個優(yōu)秀的Spider程序應(yīng)該有哪些特點。
什么是搜索引擎的Spider(蜘蛛)?以上內(nèi)容是新網(wǎng)小編為大家總結(jié)的內(nèi)容,如果你也這樣認為的話,那就更好了,新網(wǎng)小編接下來將為大家介紹更多的此類文章,如果你感興趣的話可以接著往下看。
免責(zé)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),也不承認相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,請發(fā)送郵件至:operations@xinnet.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。