SEO個性化網頁權重研究之二
對于第一篇中的研究方法要求全面獲取Web資源的使用情況,對于設計真正的Web搜索引擎而言,它是不可行的,所以只是適用于網站內部的信息檢索系統中。
與此相反,對于Web搜索引擎,通過添加修正參數的個性化PageRank方法相對較為可行。該方法無需過多地在遍歷網頁結構時重新定義不同超鏈的權重分配關系,只需在得到全部網頁的簡單超鏈結構關系后,直接通過引入修正參數來體現用戶的某種個性化信息。
通過添加修正參數引入個性化信息的網頁權重算法在以Kleinberg等設計的HITS算法中就有體現,不像PageRank方法,這個算法對每個網頁都分配兩個權重值:一個為authority值;另一個為hub值。它們具有一種迭代的定義,即一個好的authority網頁是被好的hub網頁指向,一個好的hub網頁也指向好的authority網頁。這種算法主要應用于使用主題爬蟲的網頁排序方法,還有在受限條件下的Web社區分析等方面這個算法的最初版本沒有像PageRank算法那樣具有很好的縮放性,而且對于較多網頁節點的處理還存在收斂的問題。
這種方法最早在PageRank算法中的用途主要是用于計算主題化PageRank,通過引人代表一定主題的參數向量就可以使PageRank產生主題化傾向。例如,Richardson等通過預處理方法,對不同主題所涉及的網頁集合生成不同的PageRank向量,但查詢包含上述的一個或者多個主題時,與那些主題有關的預處理PageRank值就可以直接用于運算另外,Haveliwala等使用了另外一種完全不同的方法,他提出了主題相關PageRank(topic-sensitive PageRank),這個方法先從Open Directory項目獲取主題信息,然而對Open Directory項目的每個類別計算不同的PageRank值,這個PageRank值偏重于該類別內的相關網頁。當用戶發出查詢時,通過識別查詢的上下文,相關類別的PageRank值都用于計算結果網頁的權重值口引。
相關文章:SEO個性化網頁權重研究之一:http://iloveworld.cn