天之道,其猶張弓歟?高者抑之,下者舉之en馀者損之,不足者補之,天之道損有馀而補不足。人之道則不然,損不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然規(guī)律,就猶如射箭一樣,弓位高了就往下壓一壓(高者抑之),弓位低了就往上抬一抬(下者
天之道,其猶張弓歟?高者抑之,下者舉之en馀者損之,不足者補之,天之道損有馀而補不足。人之道則不然,損不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然規(guī)律,就猶如射箭一樣,弓位高了就往下壓一壓(高者抑之),弓位低了就往上抬一抬(下者舉之)。用多余去補不足。人之道(規(guī)律),則不是這樣。它是損不足去奉多余。什么樣的人才能用有余去奉天下呢?唯有有道者。因此圣人為而恃,功成而不處,不會去想在眾人面前立賢名,以均天下。搜索所遵循就是這樣的一個規(guī)律。
據(jù)統(tǒng)計表明,近似重復(fù)網(wǎng)頁的數(shù)量占總網(wǎng)頁數(shù)量的比例高達(dá)全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,即互聯(lián)網(wǎng)頁面中有相當(dāng)大的比例的內(nèi)容是完全相同或者大體相近的重復(fù)網(wǎng)頁有多種類型,這些重復(fù)網(wǎng)頁有的是沒有一點兒改動的副本,有的在內(nèi)容上稍做修改,
石家莊網(wǎng)站建設(shè)介紹,比如同一文章的不同版本,一個新一點,一個老一點,有的則僅僅是網(wǎng)頁的格式不同(如HTML、Postscript)。內(nèi)容重復(fù)可以歸結(jié)為以下4種類型。
· 類型一:如果兩篇文檔內(nèi)容和布局格式上毫無差別,則這種重復(fù)可以叫做完全重復(fù)頁面。
· 類型二:如果兩篇文檔內(nèi)容相同,但是布局格式不同,則叫做內(nèi)容重復(fù)頁面。
· 類型三:如果兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則稱為布局重復(fù)頁面。
· 類型四:如果兩篇文檔有部分重要的內(nèi)容相同,但是布局格式不同,則稱為部分重復(fù)頁面。
所謂近似重復(fù)網(wǎng)頁發(fā)現(xiàn),就是通過技術(shù)手段快速全面發(fā)現(xiàn)這些重復(fù)信息的手段,如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。
發(fā)現(xiàn)完全相同或者近似重復(fù)網(wǎng)頁對于搜索引擎有很多好處。
1. 首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫中去掉,就能夠節(jié)省一部分存儲空間,進而可以利用這部分空間存放更多的有效網(wǎng)頁內(nèi)容,同時也提高了搜索 引擎的搜索質(zhì)量和用戶體驗。
2. 其次,如果我們能夠通過對以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的 網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重 復(fù)網(wǎng)頁隨著時間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進行 索引是有效的。
3. 另外,如果某個網(wǎng)頁的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁相對重要,在收集網(wǎng)頁時應(yīng)賦予它較高的優(yōu)先級,而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請求并對輸出結(jié)果排序時,應(yīng)該賦予它較高的權(quán)值。
4. 從另外一個角度看,如果用戶點擊了一個死鏈接,那么可以將用戶引導(dǎo)到一個內(nèi)容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重復(fù)網(wǎng)頁的及時發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。
實際工作的搜索引擎往往是在爬蟲階段進行近似重復(fù)檢測的,下圖給出了近似重復(fù)檢測任務(wù)在搜索引擎中所處流程的說明。當(dāng)爬蟲新抓取到網(wǎng)頁時,需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁索引中。