PageRank研究的一些結論
結合PageRank的算法原理以及實證分析,利用PageRank判斷網頁的質量具有一定的可靠性和可行性,這方面已經得到行業的認可,但在評價中必須考慮以下幾個方面的問題:
1.對評價對象抽取樣本進行試驗,檢驗PageRank值對評價該主題網頁質量的可靠性和可行性,如根據“SEO”的相關網站的PageRank值與網頁的質量未見相關性。對于該主題,不能輕易使用PageRank來判斷網頁的質量。
2.不同語言的網頁的PageRank值不具有可比性,經過我們的試驗顯示,中文網頁的PageRank值遠低于英文網頁的PageRank,也就是說,同等質量的內容,中文網頁的PageRank遠低于英文網頁。
3.PageRank值不適用于評價中文網頁。從實驗中可以看到,中文網頁的PageRank值絕大多數仍為0。
中文網頁PageRank值得分低,至少有3個方面的原因:一是語言的影響使網頁在全球范圍內傳播能力弱于英文網頁。第二,與中文網頁的鏈接行為有關。在以往的實驗中,發現PageRank為零的網頁所在的網域的PageRank并不低,很多高達5或6,也就是說,中文網頁的鏈接通常更多的是鏈接到網站的主頁,而不是鏈接到資源所在的網頁,這使一些網頁內容很好的網站不一定獲得更多的權威鏈接,影響其PageRank值。第三,從實證一和實證二中發現,對于以“PageRank”為關鍵詞檢索到的網頁,中文網頁的內容90%以上來自于博客(blog)網站或論壇,一些被評價為好的網頁的內容多來自對國外文章的編譯,而其他大量的網頁內容僅幾句話。英文網頁的內容有些來自于學術機構(以edu、ac為網域)或專家的個人網站。
4.PageRank的算法在評價學術網頁時,有其本身的缺陷:第一,PageRank的算法未考慮到網頁的日期問題。從實證中發現,有的網頁質量較高,但PageRank值卻很低,進一步觀察發現這些網頁的日期很新。分析PageRank算法,也可以發現PageRank算法未考慮網頁的新舊問題,一個剛發布的優質網頁,可能因為沒有多少外部鏈接而被PageRank視為低等級,相反,一個舊的質量較一般的網頁,可能因為時間累積,造成外部鏈接相對較多,而排名居前。第二,PageRank算法未考慮域的價值,在學術網頁的評價中,這顯然是一個缺陷。由于網絡中存在大量的廣告,因此,來自域edu、ac的網頁通常比來自com、net的網頁更具有學術性。對于這類網頁只有人工增加權重以彌補上述缺陷。
由此可見,只有在對PageRank的評價作用、適用范圍有清楚的把握時,才能使用這一指標進行網頁質量評價。
網站的內容質量取決于構成網站的諸網頁的內容質量,檢索到網站關于某主題的相關網頁后,將相關網頁的PageRank值之和作為網站的PageRank值,這樣,PageRank就從評價網頁的指標進而成為評價網站的指標。