SEO網(wǎng)頁排序算法研究
在網(wǎng)絡(luò)信息的查找利用過程中,搜索引擎的檢索結(jié)果往往過于龐大,搜索引擎用戶一般只會瀏覽前面的一部分結(jié)果,例如青青電商曾經(jīng)做過的關(guān)于搜索引擎排名的關(guān)注度的調(diào)查。具體數(shù)據(jù),可以查看:http://iloveworld.cn.
通過對檢索結(jié)果進(jìn)行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進(jìn)搜索結(jié)果的輸出。雖然各個搜索引擎中相關(guān)度排序的具體實現(xiàn)各不相同,基本上都采用了基于網(wǎng)站內(nèi)容的分析方法,即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵詞頻率、關(guān)鍵詞位置等因素。這些方法有很大的局限性。一方面,相關(guān)度高的頁面不一定是受用戶普遍歡迎的頁面;另一方面,有些網(wǎng)頁可能會利用一些優(yōu)化因素來欺騙搜索引擎,在SEO行業(yè)中這種行為,稱為:SEOSPAM.目的是提升某關(guān)鍵詞的頁面的排名位置。
事實上,網(wǎng)絡(luò)中蘊(yùn)含了豐富的結(jié)構(gòu)信息。頁面之間的超鏈接反映了頁面之間的引用關(guān)系,頁面被其他站點(diǎn)或其他網(wǎng)頁引用的次數(shù)基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。超鏈接中的鏈源對鏈宿頁面也起到了概括的作用,這種概括在一定程度上比鏈宿頁面內(nèi)的概括,如頁面的標(biāo)題、關(guān)鍵字、摘要等更為客觀、準(zhǔn)確。這也就是為什么使用目標(biāo)關(guān)鍵字作為鏈接錨文本,對搜索引擎排名提升的幫助更大的原因。所以,大部分的搜索引擎的算法,都是在致力更加準(zhǔn)確的鏈接分析。
目前比較知名的相關(guān)算法是:PageRank和HITS搜索引擎算法。
Web頁面權(quán)威性(authorrity)可由Web頁面鏈接來反映。Web不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超鏈接。超鏈接包含了大量潛在的語義,這些信息有助于搜索引擎的的語義分析算法分析出權(quán)威性語義。當(dāng)一個Web頁面的作者建立指向另一個頁面的鏈接時,可以看做是作者對另一網(wǎng)頁的注解。把對一個頁面的來自不同作者的注解收集起來,就可以用來反映該頁面的重要性,并可以很自然地用于權(quán)威Web頁面的發(fā)現(xiàn)。因此,大量的Web網(wǎng)頁鏈接信息提供了豐富的關(guān)于網(wǎng)頁內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,可供于搜索引擎算法的研究分析。