抵制搜索引擎優(yōu)化作弊
有一些作弊技術(shù)很容易被發(fā)現(xiàn),例如使用刷新元標(biāo)記的自動(dòng)改變加載頁(yè)面技術(shù)。但是使用腳本的自動(dòng)改變加載頁(yè)面非常難被發(fā)現(xiàn),因?yàn)樗阉饕媾老x(chóng)不會(huì)執(zhí)行腳本。對(duì)于掩飾技術(shù),網(wǎng)絡(luò)爬蟲(chóng)會(huì)把自己偽裝成普通瀏覽器來(lái)防止。
使用指向頁(yè)面的錨文本的詞索引頁(yè)面能夠在一定程度上避免內(nèi)容作弊,因?yàn)樵谄渌?yè)面上的錨文本更加可信。這技術(shù)本身是為了索引那些不被網(wǎng)絡(luò)爬蟲(chóng)發(fā)現(xiàn)的頁(yè)面而提出的,現(xiàn)在是搜索引擎中的常用技術(shù),例如:搜索引擎給錨文本中的詞更高的權(quán)值。實(shí)際上,在錨文本周圍的詞同樣提供了對(duì)于目標(biāo)頁(yè)面的編輯上的判斷。
而對(duì)于內(nèi)容作弊,頁(yè)面描述算法同樣有抵制的作用,因?yàn)樗惴ū旧硎腔谥赶蚰繕?biāo)頁(yè)面的鏈接的,同時(shí)指向目標(biāo)頁(yè)面的頁(yè)面需要具有一定知名度或者有一個(gè)高排名分?jǐn)?shù)。但是,卻沒(méi)有辦法處理前面討論的鏈接作弊技術(shù)。
相比分別抵制不同類型的作弊,有一種稱為信任排名(TrustRank)的技術(shù)被提出,能夠同時(shí)防止所有的作弊技術(shù)。這種技術(shù)利用知名度網(wǎng)頁(yè)和非垃圾網(wǎng)頁(yè)聚集的特點(diǎn),例如:在網(wǎng)絡(luò)上,有一定知名度的網(wǎng)頁(yè)通常很少指向垃圾網(wǎng)頁(yè),但垃圾網(wǎng)頁(yè)通常指向很多有知名度的網(wǎng)頁(yè)(試圖增加自己的中心程度分?jǐn)?shù))。鏈接分析方法被用作區(qū)分知名度網(wǎng)頁(yè)和任何形式的垃圾網(wǎng)頁(yè),而不是處理單個(gè)的作弊技術(shù)。
抵制作弊也被認(rèn)為是一個(gè)分類技術(shù),例如:預(yù)測(cè)一個(gè)網(wǎng)頁(yè)是否是垃圾網(wǎng)頁(yè)。可以使用指導(dǎo)性的學(xué)習(xí)算法訓(xùn)練一個(gè)垃圾分類器,主要問(wèn)題在于涉及學(xué)習(xí)的特點(diǎn)。
1.頁(yè)面中單詞的數(shù)目:一個(gè)垃圾頁(yè)面傾向比非垃圾頁(yè)面包含更多的單詞,從而希望能夠包含多數(shù)流行詞。
2.平均單詞長(zhǎng)度:在英語(yǔ)中平均單詞的長(zhǎng)度是5個(gè)字母,人造內(nèi)容的平均單詞長(zhǎng)度通常不同。
3.頁(yè)面標(biāo)題中的單詞數(shù)目:由于搜索引擎通常給頁(yè)面標(biāo)題中的單詞更多的權(quán)值,所以作弊器通常在頁(yè)面標(biāo)題中添加更多的關(guān)鍵詞。
4.可見(jiàn)內(nèi)容部分:垃圾頁(yè)面通常使垃圾項(xiàng)對(duì)用戶不可見(jiàn)。
但是,有一些作弊技術(shù)還是很難被發(fā)現(xiàn),抵制網(wǎng)絡(luò)作弊是一個(gè)不斷研究,不斷進(jìn)行的過(guò)程,一旦搜索引擎能夠探測(cè)到一些作弊手段,研究搜索引擎的人就會(huì)發(fā)明更多的作弊技術(shù)。