SEO技巧,爬蟲及網頁文本
鏈接結構和爬蟲爬行范圍
如果希望網站能夠吸引新的訪問者,在網站設計過程中,網站設計者們應考慮商業引擎網絡爬蟲的工作原理。關于商業引擎網絡爬蟲工作原理的具體細節,外人知道得很少,但可以從其一般工作原理中獲得幾點啟示。
網絡爬蟲是沿著從網頁文本中提取出來的鏈接爬行的,任何一個網站都應含有足夠的鏈接,以便爬蟲能夠發現該站點所有的網頁。更具體的講,爬蟲很可能從網站的首頁開始爬行,因此,網站首頁上的鏈接應能夠指向該網站所有的網頁。另外,這些鏈接必須包含在網頁的HTML中,且是標準的HTML(如,使用錨點標簽),因為爬蟲可能識別不了其他格式的鏈接,包括JAVA或JavaScript格式。
許多網站從未被任何搜索引擎發現過,網站設計者們應該確保他們的網站能夠讓搜索引擎的“爬蟲”發現。某些搜索引擎有URL提交功能,即允許設計者們將其網站的URL提交到爬行列表中,所有的主流搜索引擎都有這一功能;有些搜索引擎雖沒有此功能,但如果已經被索引過的網站中有指向未被索引到的網站的鏈接,那么順著鏈接,爬蟲也能爬取該網站。因此,對于新網站而言,應該確保至少有一個已經被主流搜索引擎索引到的網站鏈接到該網站。
搜索引擎程序如何解析網頁文本
一個網頁中的文本對搜索引擎來說,比對用戶更為重要。網頁中的文本與鏈接主題無關,但可以給出一些網站的總體印象,這些網站里有些內容不愿被搜索引擎索引到,所以,在設計時專門提防著搜索引擎。此時,需要區分“爬行”和“索引”這兩個概念。爬行一個網站是指沿著鏈接訪問該站點上所有的頁面,且一般會為這些網頁保存一個復本。索引則是爬行的下一個階段,即將網頁文本存人到一個特殊的“倒排文檔”數據庫中,利用“倒排文檔”數據庫,可以快速搜索到與用戶查詢相匹配的頁面。標準搜索引擎一般只索引網頁文本,而忽略圖片和其他多媒體信息。因此,討論搜索時就應該區分文本和圖片。
用戶在訪問網站的時候,從圖片中獲得的信息比從文本中獲得的信息更直觀。舉一個極端的例子,一個來自知名公司的圖標放在頁面中顯眼的位置,就足以說明該網頁是該公司的。相反,搜索引擎則是忽略所有圖片的,至少在從網頁中提取信息時是這樣的。如果一個網頁上都是鞋子的圖片,但其文本中卻沒有一個“鞋”字,那么,搜索引擎不知道這個頁面是關于鞋子的。這就說明,網站的設計者們需要確保頁面中含有描述該站點主題內容的詞語。
一些更聰明的方法可以用來幫助搜索引擎來判定該頁面是關于鞋子的。Google首先提出了這樣的方法:如果有其他頁面鏈接到含有鞋子圖片的頁面,且錨文本中也提到鞋子,這便證明該圖片頁面是和鞋子相關的。另外,有一些精細的方法,如潛在語義分析,可以根據主題同義詞,或其他與主題相關的詞來猜測一個網頁的主題。例如,如果一個頁面中含有“靴子”,或其他與鞋子相關的詞(如“鞋帶”和“鞋底”);那么,這便足以說明該頁面是和鞋子相關的。然而,網絡設計者們不能依賴使用這些先進技術的搜索引擎,因此,應該保證他們站點的關鍵頁面中含有大量與主題相關的文本信息,可以吸引訪問者。當然,這些文本應該在站點頁面的HTML中,而不是在圖片,或Java程序或多媒體形式的媒介中。
知道搜索引擎處理網頁的過程,有益于了解它們是如何尋找相關網頁的。似乎所有的商業搜索引擎都采用了向量空間模型,或是它的變體,向量空間模型一般是與其他技術結合在一起使用的。向量空間模型將所有的網頁都轉換到一個無序的詞庫中,每個頁面都用一個列表表示,列表中是頁面里各個詞出現的頻率。稍后,會用數學公式將詞頻轉換為權重,該數學公式能夠賦予文檔中詞頻較高的詞語較高的權重。同時,也會給稀有詞語賦予較高的權重。