SEO個(gè)性化網(wǎng)頁(yè)權(quán)重研究
個(gè)性化網(wǎng)頁(yè)權(quán)重的常見(jiàn)形式就是個(gè)性化PageRank。現(xiàn)代搜索引擎對(duì)自然搜索引擎排名的排序依據(jù)除了使用傳統(tǒng)的文本匹配技術(shù)以外,也廣泛地使用網(wǎng)頁(yè)權(quán)重值來(lái)進(jìn)行。最為有名的例子就是Google的PageRank技術(shù)。利用web結(jié)構(gòu)的鏈接關(guān)系,PageRank可以計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)重值,并據(jù)此對(duì)結(jié)果網(wǎng)頁(yè)進(jìn)行排序。因此,如果利用用戶的偏好信息來(lái)修改PageRank權(quán)重值的計(jì)算,據(jù)此就產(chǎn)生表達(dá)特定用戶個(gè)性化信息需求的搜索引擎排序結(jié)果。從效果上看,這種方法較PageRank更為實(shí)用,因?yàn)楫吘褂脩羰遣豢赡苋勘闅v獲取的查詢網(wǎng)頁(yè)結(jié)果集合,所以把和用戶需求聯(lián)系最為密切的網(wǎng)頁(yè)放于搜索結(jié)果前面,必然更易于用戶訪問(wèn)。其實(shí),Page等早已提出個(gè)性化PageRank的設(shè)想,只是他們并沒(méi)有在此項(xiàng)研究上深人地開展下去基于個(gè)性化網(wǎng)頁(yè)權(quán)重的個(gè)性化搜索引擎模型。
現(xiàn)在,人們提出的個(gè)性化PageRank方法有很多,主要分為兩大類:一類是直接修改基于超鏈關(guān)系得到的網(wǎng)頁(yè)權(quán)重值;另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來(lái)反映用戶的個(gè)性化要求。
在原先的PageRank計(jì)算公式中,模型對(duì)每個(gè)網(wǎng)頁(yè)的鏈接分配了相同的概率值,所以這種方法給不同鏈接和網(wǎng)頁(yè)分配的權(quán)重是一樣的,當(dāng)前網(wǎng)頁(yè)的權(quán)重值也會(huì)平均地影響鏈出網(wǎng)頁(yè),同時(shí)它還假設(shè)用戶隨機(jī)跳轉(zhuǎn)到其他任何網(wǎng)頁(yè)的概率都是一樣的。所以,這種計(jì)算方法主要是依賴于網(wǎng)頁(yè)結(jié)構(gòu)圖中的鏈接來(lái)進(jìn)行分析。但是,這些鏈接卻是由網(wǎng)站的網(wǎng)頁(yè)設(shè)計(jì)
者生成的,因此它只能反映設(shè)計(jì)者對(duì)Web中其他網(wǎng)頁(yè)的理解。另外,這種方法忽略了另外一個(gè)重要方面,那就是Web用戶對(duì)Web網(wǎng)頁(yè)的理解。也就是說(shuō),單純使用網(wǎng)頁(yè)之間的超鏈結(jié)構(gòu)來(lái)表達(dá)網(wǎng)頁(yè)權(quán)重值是不充分的。比較簡(jiǎn)單易行的修改網(wǎng)頁(yè)權(quán)重做法就是利用Web日志挖掘信息來(lái)獲取用戶對(duì)Web網(wǎng)頁(yè)的理解程度,以完善傳統(tǒng)的PageRank計(jì)算方式。事實(shí)上,憑直覺(jué)可以判斷出來(lái),那些訪問(wèn)頻率較高的超鏈應(yīng)該比那些訪問(wèn)頻率較低的超鏈更為重要,然而大部分的傳統(tǒng)超鏈分析技術(shù)對(duì)這兩者并不加以區(qū)分。
對(duì)于結(jié)合使用信息的超鏈分析技術(shù)最初是由Zhu等提出的,他們把相關(guān)公式稱為PageRate,雖然他們也宣稱自己的算法是PageRank的擴(kuò)展,但是其實(shí)這種算法不具有任何PageRank的性質(zhì)。這種算法對(duì)所有的鏈入不加區(qū)分,并不考慮高頻訪問(wèn)和低頻訪問(wèn)的區(qū)別。同時(shí),他們也沒(méi)有給出實(shí)驗(yàn)結(jié)論,對(duì)可能存在的問(wèn)題也沒(méi)有探討,設(shè)計(jì)的公式還存在問(wèn)題。
有些其他方面的研究也涉及使用信息分析。例如,使用一種增強(qiáng)學(xué)習(xí)方法來(lái)對(duì)搜索結(jié)果進(jìn)行重排序和過(guò)濾,對(duì)于每個(gè)查詢結(jié)果中的URL,系統(tǒng)都會(huì)記錄不同用戶的點(diǎn)擊情況。在隨后的查詢中,上述信息就可以有效地提升高頻訪問(wèn)的URL權(quán)值,而降低低頻訪問(wèn)的URL權(quán)值這樣的類似方法還應(yīng)用于一些商業(yè)搜索引擎中,如有的學(xué)者就在多元搜索引擎中利用上述方法實(shí)現(xiàn)一種隱式的相關(guān)度反饋機(jī)制,它將用戶點(diǎn)擊產(chǎn)生的使用情況主要用于結(jié)果網(wǎng)頁(yè)合并和網(wǎng)頁(yè)重排序等操作中舊。用戶使用信息還應(yīng)用于基于模式的應(yīng)用程序中,主要功能是及時(shí)學(xué)習(xí)用戶的興趣,并對(duì)搜索結(jié)果重排序以反映這種用戶興趣,如按照用戶模式的特征改變不同主題詞的相對(duì)重要程度。
比較好的方法是利用挖掘Web日志中的信息結(jié)合傳統(tǒng)PageRank公式得出一種新的網(wǎng)頁(yè)權(quán)重計(jì)算公式,即結(jié)合使用挖掘的PageRank,如特征敏感的PageRank(usage aware PageRank,UPR)。它結(jié)合了靜態(tài)鏈接結(jié)構(gòu)分析和用戶使用分析兩項(xiàng)技術(shù):一方面仍然強(qiáng)調(diào)傳統(tǒng)網(wǎng)頁(yè)間的超鏈關(guān)系;另一方面,它通過(guò)分析日志,判斷這些實(shí)際存在的網(wǎng)頁(yè)超鏈中究竟哪些是經(jīng)常被用戶訪問(wèn)的,哪些不是經(jīng)常被用戶訪問(wèn)的,并以此來(lái)改進(jìn)傳統(tǒng)方法中由超鏈關(guān)系產(chǎn)生的網(wǎng)頁(yè)權(quán)重值。在UPR方法中,甚至還可以通過(guò)調(diào)整參數(shù)設(shè)置來(lái)控制靜態(tài)鏈接結(jié)構(gòu)分析技術(shù)和Web使用挖掘技術(shù)的作用力度,如果參數(shù)設(shè)置為O,公式就等價(jià)于傳統(tǒng)的PageRank公式,如果參數(shù)設(shè)置為1,則重點(diǎn)就轉(zhuǎn)移到使用挖掘分析算法上,介于兩者之間則會(huì)兼顧,因此這種方式較傳統(tǒng)方式更為概括。從效率上看,這種算法也有優(yōu)勢(shì),只需通過(guò)一次額外的預(yù)處理步驟,其他的迭代處理和傳統(tǒng)方式?jīng)]有區(qū)別。
然而這種新的方法也存在不足之處。即使網(wǎng)站管理員可以得到自己站點(diǎn)用戶的訪問(wèn)信息,并將其應(yīng)用于UPR分析,但是這些信息顯然沒(méi)有包含全部的必要信息,如管理員不可能獲得不屬于自己站點(diǎn)訪問(wèn)內(nèi)的鏈出網(wǎng)頁(yè)使用情況。雖然可以通過(guò)爬蟲程序遍歷那些網(wǎng)頁(yè)的超鏈結(jié)構(gòu),但是除了可以獲得用戶通過(guò)哪些網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè)訪問(wèn)本地網(wǎng)頁(yè)的使用信息,并不可能獲得其他更為重要的使用信息。也就是說(shuō),從站點(diǎn)層次上看,全部的結(jié)構(gòu)信息和使用信息是可以全部獲取的,然而從整個(gè)Web網(wǎng)絡(luò)層次上看,卻是不完整的。同時(shí),對(duì)單一的應(yīng)用技術(shù)而言,整個(gè)Web網(wǎng)絡(luò)上的用戶使用信息也是無(wú)法完整獲取的。諸如Google搜索工具欄等客戶端應(yīng)用程序,雖然它們可以收集用戶的使用信息,而且這些信息也確實(shí)是基于整個(gè)web范圍而言的,然而這里所涉及的用戶范圍是相當(dāng)小的,他們首先必須安裝客戶端應(yīng)用程序,而且必須進(jìn)行相關(guān)設(shè)置以同意公開這些屬于個(gè)人隱私的Web訪問(wèn)信息。需要說(shuō)明的是,諸如Google搜索工具欄之類的軟件在默認(rèn)情況下是尊重用戶的個(gè)人隱私權(quán)的,除非用戶自己允許,它并不主動(dòng)收集任何用戶訪問(wèn)的信息,當(dāng)然也有其他一些客戶端應(yīng)用程序似乎并不遵守上述原則。
因此,這種結(jié)合使用挖掘的PageRank最適用于網(wǎng)站內(nèi)部的網(wǎng)頁(yè)搜索,搜索引擎工作的原理先獲取該網(wǎng)站的結(jié)構(gòu)信息,結(jié)合用戶使用信息,可以得到傳統(tǒng)PageRank方法的擴(kuò)展模型。實(shí)驗(yàn)結(jié)果也能證明這種算法更能有效地提升高訪問(wèn)頻率的網(wǎng)頁(yè)權(quán)重值,相應(yīng)地降低那些低訪問(wèn)頻率的網(wǎng)頁(yè)權(quán)重值。
隨著搜索引擎技術(shù)慢慢走向成熟,越來(lái)越多的搜索引擎優(yōu)化工作者以及很難從搜索引擎的表象去研究SEO。近一年時(shí)間以來(lái),Google、百度等搜索引擎不斷調(diào)整鏈接分析技術(shù),加深SEO門檻。SEOER也必須隨著搜索引擎的發(fā)展而發(fā)展。