SEO網頁質量直接測度指標
網站質量、網頁質量是SEO經常提的一個SEO術語。但是具體的,搜索引擎是如何判斷一個網頁、網站質量的,相信大部分的SEO對此都沒有了解。主要原因是這些算法是搜索引擎公司的核心機密,搜索引擎公司幾乎不會公布關于算法的任何一點蛛絲馬跡。但是青青電商(http://iloveworld.cn)通過對搜索引擎原理以及搜索引擎主流網頁質量分析技術的研究,我們大概也能探知60%。
網頁質量直接測度指標,這篇文章是青青電商網站權重研究系列文章之三。系列文章之一:網頁質量 系列文章之二:結合網頁質量分析的搜索模式
1.基于網頁鏈接關系的評價指標
基于網頁鏈接關系的分析方法認為,能夠被更多網頁鏈入的流行網頁是更為重要的網頁,也是質量較高的網頁。事實證明這個方法比較成功,如Google的PageRank方法就采用了這樣的方式來對網頁進行加權。
這個方法有效的主要原因在于網絡環境的特殊性??梢赃@樣認為,在Web網絡上沒有整體上的質量控制,所以Web網頁不具有類似于出版環境下的權威性評價特征(在出版環境下,相關文獻可以通過同行評審等方法來獲得別人的認可,從而表現出高質量),所以Web用戶就需要使用其他一些方法來對網站的專業能力和可信度進行判斷。其中,比較常見的方法就是網頁的鏈人數量和鏈入網頁的質量.顯然,網頁鏈人數量越多或者鏈入網頁的質量越高,都能反映出當前網頁的質量較高,如被大學、圖書館或者有價值的網站鏈接的網站通常都是一些具有高質量的網站。同時,各個網頁也愿意對其他網頁建立鏈接關系,因為在缺乏整體網頁質量控制的條件下,網頁可以通過建立指向高質量網頁的鏈接來表現自己的內容有較好的出處和來源,對來源網頁的鏈接從另一方面來看就是希望得到用戶對當前網頁的認可,這在一定程度上可以解釋為什么在Web環境下網頁超鏈很普及的原因。
然而,雖然這個方法便于實施,很多搜索引擎系統都能提供基于網頁超鏈關系的分析技術,并將其應用到網頁推薦服務上,但是它也存在很多問題。例如,上述評價標準基于一個基礎的前提,那就是鏈人數量較多的網頁,即流行的網頁一定是質量較高的網頁。但是這存在很多問題,如那些在檢索結果中排名靠后的不流行網頁就不太可能被用戶訪問到;相反,那些非常流行的網頁由于獲得較高的鏈人數量,排名靠前,所以更有可能被更多的用戶訪問到,從而越來越流行,越能表現出質量較高的狀態,產生了所謂的“富越富(rich-get-richer)”現象。這顯然并不公平,特別是對于一些高質量的現有網頁和一些不可能獲得太多鏈人數量的、新出現的高質量網頁而言,更為不公平。
2.基于網站流量的評價指標
此方法利用網站流量來對網站的網頁質量進行評價,如Alexa,它通過站點訪問流量之間的對比關系來對網站進行排名,同時它也參考網站的鏈入節點數量和用戶的評論信息。但是具有流行話題的網站通常會具有更大的訪問流量,所以Alexa沒有提供針對不同主題下的網站排名情況,仍然顯得不是很完整。也有學者提出基于不同主題的網站流量排名方法,不過主題范圍較為寬泛。
3.基于Web用戶訪問模型的評價指標
正是因為上述方法存在諸多不足,所以有學者提出網頁質量可以表示為一個尋找指定信息的隨機訪問用戶愿意訪問到此網站網頁的概率,如Topic試驗系統。不同于基于網頁鏈接關系的評價指標,這個指標建立在一個假設基礎之上,即如果用戶在瀏覽一個網頁后,在較短的時間內對其建立了超鏈,則可以認為這種網頁具有較高的質量,所以可以將所有網頁展示給所有用戶,通過了解用戶是否在較短的時間內對其建立超鏈來計算用戶對它們的喜愛程度,并以此來得到網頁的質量。顯然,雖然一位用戶對網頁建立超鏈的行為并不一定反映出該網頁的質量,但是如果面向大多數用戶,這種統計意義上的匯總信息將能在客觀上表明網頁的質量。因此,這種定義方法可以被稱為基于用戶訪問模型的方法。
由于網頁質量和網頁本身的流行度也存在關聯,所以傳統的基于網頁鏈接關系的評價方法也間接地考慮了網頁的質量,網頁質量通過網頁被喜好的程度來測量,而網頁被喜好的程度則可以通過喜歡該網頁的用戶數量來決定,而這個喜歡該網頁的用戶數量又可以通過網頁的鏈入數量來間接測度,所以鏈人數量這個指標正比于網頁質量指標。不過,它對所有網頁提供了相同的面向用戶機會,所以新出現的網頁就沒有可能比原有的流行網頁獲得更多的鏈人數量。從這一點來看,傳統的基于網頁鏈接關系的評價方法對網頁質量的考慮還是不充分的,它只是利用某個時間點上網頁的鏈接關系來做出判斷,而在基于用戶訪問模型的網頁質量定義中,重點強調了在較短的時間內建立鏈接的特點,所以必須通過在動態時間間隔內的網頁鏈接關系變化來做出測度。也就是說,網頁流行度可以被定義為在一個時間點上用戶喜歡該網頁的程度,而網頁質量定義為在用戶發現網頁時,在單位時間內喜歡該網頁的程度。
顯然,網頁質量和網頁流行度存在正相關關系,但是存在網頁被訪問概率的影響因素。其中的網頁質量可以看成是網頁的客觀指標,不會隨著時間發生改變,所以在網頁質量既定的情況下,網頁流行度主要是由網頁被訪問的概率來決定的。
當然,這種指標的設計不能說沒有問題,它會產生主題偏向性(topic bias)。例如,話題流行度和質量。一般而言,如果網頁談論的話題是較為流行的話題,相對而言,該網頁要比那些只談論過時話題的網頁更有質量。不過,從網頁質量來看,這一點似乎也很正常,畢竟測量網頁真實質量的方法是要考慮網頁話題的內容。同時,由于搜索引擎在返回結果中,一般只會將需要排序的網頁限定在一個較少的范圍內,作為同一個用戶查詢的返回結果,這些網頁之間在語義上基本接近,因此這些網頁質量之間的相對大小還是具有可比性的。所以,在Web信息搜索環境下,這種網頁質量直接測度指標較為適用。