什么是Web數據挖掘
Web挖掘的目標是從Web的超鏈接結構、網頁內容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數據挖掘技術,但它并不僅僅是傳統數據挖掘的一個簡單應用。在過去20年中,許多新的挖掘任務和算法被相繼發明。依據在挖掘過程中使用的數據類別,Web挖掘任務可以被劃分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘。
Web結構挖掘:Web結構挖掘從表征Web結構的超鏈接(簡稱鏈接)中尋找有用的知識。例如:從這些鏈接中,我們可以找出哪些是重要的網頁,這是一項搜索引擎采用的重要技術。我們也可以發掘具有共同興趣的用戶社區。這些任務在傳統的數據挖掘中并不存在,因為在關系型表格中并沒有鏈接結構。
Web內容挖掘:Web內容挖掘從網頁內容中抽取有用的信息和知識。例如:根據網頁的主題,我們可以進行自動的聚類和分類。雖然這些任務與傳統數據挖掘的任務相似,但是我們依然可以為了各種不同的目的從網頁中根據模式抽取有用的信息,例如商品描述、論壇回帖等。而這些信息可以被用作進一步分析來挖掘用戶態度。這些任務也不是傳統的數據挖掘任務。
Web使用挖掘:Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務也使用了許多數據挖掘的算法。其中一項重要的議題是點擊流數據的預處理,以便生成可以用來挖掘的合適數據。
搜索引擎優化研究是與WEB數據挖掘比較相關的一門技術,因為大部分的搜索引擎工程師在思考如何設計搜索引擎的時候,同時也會注重或者很大一部分是要解決搜索結果排序公正的問題。