SEO個(gè)性化網(wǎng)頁(yè)權(quán)重研究

發(fā)布日期：2017-02-06 作者：點(diǎn)擊：

個(gè)性化網(wǎng)頁(yè)權(quán)重的常見(jiàn)形式就是個(gè)性化PageRank。現(xiàn)代搜索引擎對(duì)自然搜索引擎排名的排序依據(jù)除了使用傳統(tǒng)的文本匹配技術(shù)以外，也廣泛地使用網(wǎng)頁(yè)權(quán)重值來(lái)進(jìn)行。最為有名的例子就是Google的PageRank技術(shù)。利用web結(jié)構(gòu)的鏈接關(guān)系，PageRank可以計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)重值，并據(jù)此對(duì)結(jié)果網(wǎng)頁(yè)進(jìn)行排序。因此，如果利用用戶的偏好信息來(lái)修改PageRank權(quán)重值的計(jì)算，據(jù)此就產(chǎn)生表達(dá)特定用戶個(gè)性化信息需求的搜索引擎排序結(jié)果。從效果上看，這種方法較PageRank更為實(shí)用，因?yàn)楫吘褂脩羰遣豢赡苋勘闅v獲取的查詢網(wǎng)頁(yè)結(jié)果集合，所以把和用戶需求聯(lián)系最為密切的網(wǎng)頁(yè)放于搜索結(jié)果前面，必然更易于用戶訪問(wèn)。其實(shí)，Page等早已提出個(gè)性化PageRank的設(shè)想，只是他們并沒(méi)有在此項(xiàng)研究上深人地開展下去基于個(gè)性化網(wǎng)頁(yè)權(quán)重的個(gè)性化搜索引擎模型。

現(xiàn)在，人們提出的個(gè)性化PageRank方法有很多，主要分為兩大類：一類是直接修改基于超鏈關(guān)系得到的網(wǎng)頁(yè)權(quán)重值；另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來(lái)反映用戶的個(gè)性化要求。

在原先的PageRank計(jì)算公式中，模型對(duì)每個(gè)網(wǎng)頁(yè)的鏈接分配了相同的概率值，所以這種方法給不同鏈接和網(wǎng)頁(yè)分配的權(quán)重是一樣的，當(dāng)前網(wǎng)頁(yè)的權(quán)重值也會(huì)平均地影響鏈出網(wǎng)頁(yè)，同時(shí)它還假設(shè)用戶隨機(jī)跳轉(zhuǎn)到其他任何網(wǎng)頁(yè)的概率都是一樣的。所以，這種計(jì)算方法主要是依賴于網(wǎng)頁(yè)結(jié)構(gòu)圖中的鏈接來(lái)進(jìn)行分析。但是，這些鏈接卻是由網(wǎng)站的網(wǎng)頁(yè)設(shè)計(jì)

者生成的，因此它只能反映設(shè)計(jì)者對(duì)Web中其他網(wǎng)頁(yè)的理解。另外，這種方法忽略了另外一個(gè)重要方面，那就是Web用戶對(duì)Web網(wǎng)頁(yè)的理解。也就是說(shuō)，單純使用網(wǎng)頁(yè)之間的超鏈結(jié)構(gòu)來(lái)表達(dá)網(wǎng)頁(yè)權(quán)重值是不充分的。比較簡(jiǎn)單易行的修改網(wǎng)頁(yè)權(quán)重做法就是利用Web日志挖掘信息來(lái)獲取用戶對(duì)Web網(wǎng)頁(yè)的理解程度，以完善傳統(tǒng)的PageRank計(jì)算方式。事實(shí)上，憑直覺(jué)可以判斷出來(lái)，那些訪問(wèn)頻率較高的超鏈應(yīng)該比那些訪問(wèn)頻率較低的超鏈更為重要，然而大部分的傳統(tǒng)超鏈分析技術(shù)對(duì)這兩者并不加以區(qū)分。

對(duì)于結(jié)合使用信息的超鏈分析技術(shù)最初是由Zhu等提出的，他們把相關(guān)公式稱為PageRate，雖然他們也宣稱自己的算法是PageRank的擴(kuò)展，但是其實(shí)這種算法不具有任何PageRank的性質(zhì)。這種算法對(duì)所有的鏈入不加區(qū)分，并不考慮高頻訪問(wèn)和低頻訪問(wèn)的區(qū)別。同時(shí)，他們也沒(méi)有給出實(shí)驗(yàn)結(jié)論，對(duì)可能存在的問(wèn)題也沒(méi)有探討，設(shè)計(jì)的公式還存在問(wèn)題。

有些其他方面的研究也涉及使用信息分析。例如，使用一種增強(qiáng)學(xué)習(xí)方法來(lái)對(duì)搜索結(jié)果進(jìn)行重排序和過(guò)濾，對(duì)于每個(gè)查詢結(jié)果中的URL，系統(tǒng)都會(huì)記錄不同用戶的點(diǎn)擊情況。在隨后的查詢中，上述信息就可以有效地提升高頻訪問(wèn)的URL權(quán)值，而降低低頻訪問(wèn)的URL權(quán)值這樣的類似方法還應(yīng)用于一些商業(yè)搜索引擎中，如有的學(xué)者就在多元搜索引擎中利用上述方法實(shí)現(xiàn)一種隱式的相關(guān)度反饋機(jī)制，它將用戶點(diǎn)擊產(chǎn)生的使用情況主要用于結(jié)果網(wǎng)頁(yè)合并和網(wǎng)頁(yè)重排序等操作中舊。用戶使用信息還應(yīng)用于基于模式的應(yīng)用程序中，主要功能是及時(shí)學(xué)習(xí)用戶的興趣，并對(duì)搜索結(jié)果重排序以反映這種用戶興趣，如按照用戶模式的特征改變不同主題詞的相對(duì)重要程度。

比較好的方法是利用挖掘Web日志中的信息結(jié)合傳統(tǒng)PageRank公式得出一種新的網(wǎng)頁(yè)權(quán)重計(jì)算公式，即結(jié)合使用挖掘的PageRank，如特征敏感的PageRank(usage aware PageRank，UPR)。它結(jié)合了靜態(tài)鏈接結(jié)構(gòu)分析和用戶使用分析兩項(xiàng)技術(shù)：一方面仍然強(qiáng)調(diào)傳統(tǒng)網(wǎng)頁(yè)間的超鏈關(guān)系；另一方面，它通過(guò)分析日志，判斷這些實(shí)際存在的網(wǎng)頁(yè)超鏈中究竟哪些是經(jīng)常被用戶訪問(wèn)的，哪些不是經(jīng)常被用戶訪問(wèn)的，并以此來(lái)改進(jìn)傳統(tǒng)方法中由超鏈關(guān)系產(chǎn)生的網(wǎng)頁(yè)權(quán)重值。在UPR方法中，甚至還可以通過(guò)調(diào)整參數(shù)設(shè)置來(lái)控制靜態(tài)鏈接結(jié)構(gòu)分析技術(shù)和Web使用挖掘技術(shù)的作用力度，如果參數(shù)設(shè)置為O，公式就等價(jià)于傳統(tǒng)的PageRank公式，如果參數(shù)設(shè)置為1，則重點(diǎn)就轉(zhuǎn)移到使用挖掘分析算法上，介于兩者之間則會(huì)兼顧，因此這種方式較傳統(tǒng)方式更為概括。從效率上看，這種算法也有優(yōu)勢(shì)，只需通過(guò)一次額外的預(yù)處理步驟，其他的迭代處理和傳統(tǒng)方式?jīng)]有區(qū)別。

然而這種新的方法也存在不足之處。即使網(wǎng)站管理員可以得到自己站點(diǎn)用戶的訪問(wèn)信息，并將其應(yīng)用于UPR分析，但是這些信息顯然沒(méi)有包含全部的必要信息，如管理員不可能獲得不屬于自己站點(diǎn)訪問(wèn)內(nèi)的鏈出網(wǎng)頁(yè)使用情況。雖然可以通過(guò)爬蟲程序遍歷那些網(wǎng)頁(yè)的超鏈結(jié)構(gòu)，但是除了可以獲得用戶通過(guò)哪些網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè)訪問(wèn)本地網(wǎng)頁(yè)的使用信息，并不可能獲得其他更為重要的使用信息。也就是說(shuō)，從站點(diǎn)層次上看，全部的結(jié)構(gòu)信息和使用信息是可以全部獲取的，然而從整個(gè)Web網(wǎng)絡(luò)層次上看，卻是不完整的。同時(shí)，對(duì)單一的應(yīng)用技術(shù)而言，整個(gè)Web網(wǎng)絡(luò)上的用戶使用信息也是無(wú)法完整獲取的。諸如Google搜索工具欄等客戶端應(yīng)用程序，雖然它們可以收集用戶的使用信息，而且這些信息也確實(shí)是基于整個(gè)web范圍而言的，然而這里所涉及的用戶范圍是相當(dāng)小的，他們首先必須安裝客戶端應(yīng)用程序，而且必須進(jìn)行相關(guān)設(shè)置以同意公開這些屬于個(gè)人隱私的Web訪問(wèn)信息。需要說(shuō)明的是，諸如Google搜索工具欄之類的軟件在默認(rèn)情況下是尊重用戶的個(gè)人隱私權(quán)的，除非用戶自己允許，它并不主動(dòng)收集任何用戶訪問(wèn)的信息，當(dāng)然也有其他一些客戶端應(yīng)用程序似乎并不遵守上述原則。

因此，這種結(jié)合使用挖掘的PageRank最適用于網(wǎng)站內(nèi)部的網(wǎng)頁(yè)搜索，搜索引擎工作的原理先獲取該網(wǎng)站的結(jié)構(gòu)信息，結(jié)合用戶使用信息，可以得到傳統(tǒng)PageRank方法的擴(kuò)展模型。實(shí)驗(yàn)結(jié)果也能證明這種算法更能有效地提升高訪問(wèn)頻率的網(wǎng)頁(yè)權(quán)重值，相應(yīng)地降低那些低訪問(wèn)頻率的網(wǎng)頁(yè)權(quán)重值。

隨著搜索引擎技術(shù)慢慢走向成熟，越來(lái)越多的搜索引擎優(yōu)化工作者以及很難從搜索引擎的表象去研究SEO。近一年時(shí)間以來(lái)，Google、百度等搜索引擎不斷調(diào)整鏈接分析技術(shù)，加深SEO門檻。SEOER也必須隨著搜索引擎的發(fā)展而發(fā)展。

相關(guān)標(biāo)簽：惠州做網(wǎng)站

上一篇：如何讓搜索引擎收錄更多的頁(yè)面
下一篇：SEO的博客鏈接策略

SEO個(gè)性化網(wǎng)頁(yè)權(quán)重研究

發(fā)布日期：2017-02-06 作者：點(diǎn)擊：

相關(guān)標(biāo)簽：惠州做網(wǎng)站

最近瀏覽：

相關(guān)產(chǎn)品：

相關(guān)新聞：

掃描二維碼

SEO個(gè)性化網(wǎng)頁(yè)權(quán)重研究

發(fā)布日期：2017-02-06 作者： 點(diǎn)擊：

相關(guān)標(biāo)簽：惠州做網(wǎng)站

最近瀏覽：

相關(guān)產(chǎn)品：

相關(guān)新聞：

掃描二維碼

發(fā)布日期：2017-02-06 作者：點(diǎn)擊：