seo網(wǎng)頁質(zhì)量間接測度指標(biāo)
網(wǎng)頁質(zhì)量、網(wǎng)站權(quán)重在SEO眼里是優(yōu)化的基礎(chǔ),一個缺乏基礎(chǔ)的網(wǎng)站,很難得到搜索引擎的重視。如何提升用戶以及搜索引擎對一個網(wǎng)站的評價,是重要的優(yōu)化目標(biāo)。相關(guān)系列文章:
1.網(wǎng)頁質(zhì)量
2.結(jié)合網(wǎng)頁質(zhì)量分析的搜索模式
3.網(wǎng)頁質(zhì)量直接測度指標(biāo)
1.基于網(wǎng)頁名譽度的評價指標(biāo)
部分搜索引擎技術(shù)研究人員利用網(wǎng)頁所在網(wǎng)站的名譽度(reputation)來評價網(wǎng)頁質(zhì)量。從概念上看,名譽度是指一種有助于別人判斷是否可以投資或者保護(hù)的重要個人資產(chǎn)。在一定程度上,可以將其看成質(zhì)量的期望(expectation 0f quality)。因為具有較高名譽度的客體通常有助于提升別人與其進(jìn)行交流的可能。一個網(wǎng)站的名譽度類似于一個組織或者個人的名譽度。它需要相應(yīng)主體真實的先期展示,并通過在提供諸如排名等服務(wù)的第三方組織評價中得以表達(dá)。即便是人們無法知道這個網(wǎng)站的名譽度,也會在看到網(wǎng)站的一瞬間,通過對其可視化內(nèi)容的大致掃描,對其名譽度做出自己的判斷,以決定離開還是繼續(xù)瀏覽。也有的搜索引擎技術(shù)研究人員從多維分析的角度,給出了網(wǎng)頁名譽度多維測度方法以間接測量網(wǎng)頁的質(zhì)量,這些多維指標(biāo)包含可信度(trust)、權(quán)威性(authority)、內(nèi)容相關(guān)性(aboutness)、再次訪問的可能性(revisit)、可推薦程度(recommend)、可等級化(ranked)。
2.基于網(wǎng)站權(quán)威性的評價指標(biāo)
有的搜索引擎技術(shù)研究人員聲稱網(wǎng)站的權(quán)威性(authority)在一定程度上直接影響著網(wǎng)站內(nèi)容的質(zhì)量,這種權(quán)威性來自于兩個方面:一個是專業(yè)能力;另一個是可信度。除此以外,有很多評價網(wǎng)絡(luò)信息的服務(wù)站點通常會強調(diào)網(wǎng)站內(nèi)容的名譽度,具體指標(biāo)包括相關(guān)度(relevance)、信息可靠性(reliability)、權(quán)威性(authority)、內(nèi)容質(zhì)量(quality of content)、可用性(usability)和客觀性(objectivity)等。近年來,諸如全球信息基礎(chǔ)設(shè)施裁定組織(Global Information Infrastruc.ture Award)等一些機構(gòu)的排名服務(wù)也開始涉足網(wǎng)站質(zhì)量的評價,包括對作者資質(zhì)等情況的評價。
3.基于用戶相關(guān)度反饋信息的評價指標(biāo)
搜索過程主要由用戶發(fā)出查詢開始,檢查返回的命中結(jié)果,并選擇其中的一部分內(nèi)容做進(jìn)一步的瀏覽,這既可以通過當(dāng)前檢索結(jié)果頁面上的鏈接來進(jìn)行,也可以通過在打開的命中網(wǎng)頁中繼續(xù)點擊瀏覽。這些在搜索時選中并瀏覽的網(wǎng)頁序列構(gòu)成了用戶檢索點擊流,它可以作為測量用戶相關(guān)度反饋的信息源,被稱為用戶相關(guān)度反饋信息。從定義上看,相關(guān)度反饋主要是指檢索用戶可以向檢索系統(tǒng)提供自己是否更喜歡某網(wǎng)頁的過程,從而間接反映查詢的相關(guān)度。它不僅可以改善當(dāng)前用戶的搜索體驗,還可以提高所有檢索用戶的搜索質(zhì)量。例如,可以提升被訪問次數(shù)最多的網(wǎng)頁權(quán)重等,而且也可以作為相關(guān)網(wǎng)頁質(zhì)量的評價指標(biāo)。
信息檢索系統(tǒng)收集用戶相關(guān)度反饋信息的方式主要有兩種:一種是顯式的方法,它要求用戶在檢索時主動地對和查詢相關(guān)的文檔做標(biāo)記,這種方式雖然效果明顯,但是會增加用戶使用負(fù)擔(dān),一般的用戶很難愿意配合這種信息收集行為;另一種是隱式的方法,它一般無需用戶主動提交,通過探測用戶行為,并以此來間接評價結(jié)果文檔的相關(guān)度。它建立在一個假設(shè)基礎(chǔ)之上,那就是用戶在檢索時會持續(xù)地進(jìn)行隱式的結(jié)果相關(guān)性判斷。從理論上看,利用隱式方法得到的信息并不十分準(zhǔn)確,從被觀察的檢索活動到相關(guān)度的判斷過程都有可能存在潛在的誤差,這顯然會導(dǎo)致將更多的不相關(guān)文檔標(biāo)記為相關(guān)文檔。但是,隱式方式也具有顯式方法不可比擬的優(yōu)點,如不增大用戶使用負(fù)擔(dān)。事實上,由于需要用戶主動提交,顯式方法所收集的信息相當(dāng)有限。相比之下,利用隱式方法收集而來的信息更多,也更為詳細(xì),而且即便是存在誤差,只要收集到足夠多的數(shù)據(jù)樣本,通過一些數(shù)據(jù)分析方法就可以很好地去除那些噪聲數(shù)據(jù)。
研究者已經(jīng)提出了很多可以用于隱式收集相關(guān)度反饋信息的途徑,如在搜索結(jié)果文檔列表中點擊選擇某些文檔的行為、在網(wǎng)頁文本中的翻滾行為對網(wǎng)頁做書簽的行為、打印網(wǎng)頁的行為和瀏覽網(wǎng)頁所花費的時間。其中,有些指標(biāo)也存在一定的爭議。例如,有的搜索引擎技術(shù)研究人員就認(rèn)為,瀏覽每個網(wǎng)頁所花費的時間并不能有效代表用戶對這個網(wǎng)頁相關(guān)度的認(rèn)可程度;甚至有些搜索引擎技術(shù)研究人員認(rèn)為,瀏覽網(wǎng)頁所花費的時間根本就是一個不可靠的相關(guān)度反饋測量指標(biāo),主要原因在于存在一些和相關(guān)度沒有關(guān)系的因素于擾,如任務(wù)本身、文檔集合特點和檢索環(huán)境等都會影響瀏覽時間。
其他搜索引擎技術(shù)研究人員也提出了綜合的方法來改善隱式方法的分析效果如同時考慮瀏覽時間、是否打印網(wǎng)頁和保存網(wǎng)頁、翻滾網(wǎng)頁和保存書簽等用戶行為將能取得更好的效果。還有搜索引擎技術(shù)研究人員認(rèn)為,在非試驗環(huán)境下,將用戶在查詢時發(fā)出的點擊數(shù)與用戶和檢索系統(tǒng)交互的全部時間結(jié)合起來,可以有效地揣度用戶對網(wǎng)頁文檔的滿意度。但是,從總體來看,相關(guān)試驗的效果并不是十分理想,即便是可行,但是相關(guān)數(shù)據(jù)的收集工作卻較難展開,甚至無法得到較為豐富的數(shù)據(jù)。因此,點擊流數(shù)據(jù)就稱為一種較好的隱式分析數(shù)據(jù)源,它在非試驗環(huán)境下易于收集,而且比其他幾種用于隱式收集相關(guān)度反饋信息的數(shù)據(jù)更為準(zhǔn)確。它建立在一個假設(shè)之上,那就是被點擊的文檔應(yīng)該比沒有被點擊的文檔更為相關(guān)很多搜索引擎技術(shù)研究人員在這方面做了研究,如使用點擊數(shù)據(jù)來訓(xùn)練檢索算法,按照用戶點擊數(shù)量來對檢索結(jié)果重排序,也有搜索引擎技術(shù)研究人員從被點擊文檔中提取候選詞語來對查詢進(jìn)行擴(kuò)展以提高檢索精度。
從理論上看,利用點擊流進(jìn)行分析是一種協(xié)同過濾技術(shù)。當(dāng)利用相關(guān)度反饋信息服務(wù)所有檢索用戶時,原先檢索用戶認(rèn)為的相關(guān)文檔就會被認(rèn)為與其他用戶相關(guān)。如果這些用戶具有相同的查詢需求,則這種相關(guān)度反饋就會提高檢索效果。但是點擊流分析技術(shù)和一般的協(xié)同過濾技術(shù)也存在不同,主要在于一般的協(xié)同過濾技術(shù)主要是面向那些具有相對穩(wěn)定興趣的用戶群體,所以便于基于他們先前的興趣來預(yù)測可能的興趣,而作為信息檢索用戶,他們每一次鍵入的查詢都可能具有完全不一樣的語義。
在這方面的很多先前研究工作都往往集中于對搜索結(jié)果網(wǎng)頁中文檔的點擊情況進(jìn)行分析,而缺乏對每個用戶整個搜索過程所涉及的全部文檔進(jìn)行分析。有搜索引擎技術(shù)研究人員通過人工評價試驗發(fā)現(xiàn),在搜索過程中產(chǎn)生的所有相關(guān)度反饋信息都可以有效地提高進(jìn)一步查詢的精度和可信度,所以從用戶搜索過程中的全部網(wǎng)頁信息中提煉點擊流數(shù)據(jù)將是有效提高相關(guān)度反饋精準(zhǔn)度的方法.