基于深度學習網頁主題爬蟲設計 【摘要】網頁主題爬蟲能夠從萬維網中尋找從屬于特定主題的網頁,并對其中的關鍵詞、段落和圖像進行保存和索引。但在網頁的表達形式、數量和內容都呈現爆發式增長的情況下,傳統的基于關鍵字匹配的網頁主題發現方法已經難以有效的為爬蟲程序進行準確的主題識別,這對于搜索引擎建立有效的網頁內容數據庫和網頁內容的話題分析等關鍵應用都是具大的挑戰。提出一種基于深度學習的網頁主題爬蟲的設計,采用深度信念網絡對由文字向量表示的網頁內容進行概念表達,以此構建多層次的網頁主題概念特征向量,并使用支持向量機模型在新的特征表達下對網頁主題進行快速識別,有效提升了爬蟲程序對網頁主題的識別準確率。 【關鍵詞】主題爬蟲 深度學習 深度信念網絡 向量空間模型 支持向量機 【】A can the web pages to WWW as well as and the key words, and in these web pages. , the rapid of the of and of web pages lead to a great that the topic based on key words are for topic , which also to the of web page and topic of web page . In this paper, we a of based on deep . In this , a deep is to the of web pages with which are as space model. The of a topic forms a which is used by a to the of a new web page. The the of web page . 【】 ; deep ; deep ; space model; 【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2016)01-0218-02 1.背景 在互聯網技術高速發展的今天,萬維網(World Wide Web,WWW)上保存了海量的信息和資源,且大多以多媒體網頁的形式進行保存[1]。
為了使人們能夠在海量的網頁資源中快速查找到感興趣的網頁資源,搜索引擎通過網頁爬蟲(Web )收集各種網頁,并建立基于關鍵詞或主題的索引,方便用戶的快速搜索[2]。在這種情況下,網頁爬蟲程序對網頁主題的識別能力和效率就顯得十分重要[3]。傳統爬蟲程序主要是依據對網頁關鍵詞的匹配進行主題識別,主要對HTML頁面中的meta字段或整個HTML文本進行關鍵詞匹配[4]。而對特定主題的定義則為若干個關鍵詞的組合。這種基于簡單文本匹配的方法對當前復雜且種類繁多的網頁是不適用的,主要原因在于網頁主題是一個比較復雜的概念,僅通過關鍵詞或其組合的方式難以準確表達某個網頁主題[5, 6]。 研究者們采用機器學習和數據挖掘的方法對不同主題的文本特征進行學習和提取,并以模型參數的形式預先設置在爬蟲程序里面,當進行網頁獲取時,爬蟲程序通過模型在線判斷一個新網頁所屬的主題,然后確定是否保存到數據庫中[7]。但同時我們指出,不同的機器學習模型的訓練代價、識別效率和對網頁主題所蘊含的抽象概念的表達能力各不相同。基于統計學習和淺層機器學習的模型由于受限于其對復雜函數的表達能力,因此在網頁主題爬蟲上使用的效果并不十分理想[8]。
針對目前網頁主題爬蟲對網頁主題的識別問題,本文提出采用基于深度學習(Deep )的模型對主題進行特征表達并使用支持向量機( ,SVM)模型進行識別。區別于傳統的淺層模型,深度學習模型的輸入層和輸出層之間相隔了若干個運算層,如堆疊自動編碼器( Auto ,SAE)就是若干個自動編碼器的疊加,深度信念網絡(Deep ,DBN)實質上是一個多層的貝葉斯信念網絡[9]。通過多層的運算單元疊加,可以有效提取和表達各種復雜概念,這是構建有效主題識別模型的基礎。 2.主要方法 本文方法首先使用向量空間模型對網頁進行向量化表達,即把網頁轉化為詞向量,在本研究中對中英文網頁分別使用不同的基礎向量,這是由于中文和英文的詞集是不同的。使用分詞軟件對網頁的文本內容進行過濾和分詞,并把分詞結果記錄在一個m維布爾向量中,若該網頁含有第i個基本詞,則該向量的第i位為1,反之為0。在此基礎上構建深度信念網絡,它本質上是一個多層神經網絡,通過訓練它可以以最大的后驗概率去生成數據。對于每一層,其輸出均可以看作是對輸入的重新編碼,但要求得到的新編碼能依概率還原本來的輸入,深度學習模型正是通過這種不斷的重新編碼發現隱含概念。
圖1給出了一個深度信念網絡的基本結構。 圖1. 深度信念網絡的基本結構 使用已經標注主題且以向量空間模型表達的網頁數據對DBN進行訓練,其目標是通過正向(輸入層至輸出層)的數據通路得出在當前權重下的模型輸出,與有監督數據中的網頁真實主題信息進行比較,若發現模型的輸出有錯誤,則通過反向傳播從輸出層至輸入層逐層調整權重,最終使模型的輸出與真實的主題信息一致。取訓練后的模型權重矩陣作為網頁爬蟲程序在分析網頁的主題信息時的模型參數。需要指出的是,在圖1所示的DBN網絡中,其輸出層是一個多路的支持向量機分類器,該SVM的輸入是第t-1層的概念表達。如前所述,在DBN 中,每一層均是對前一層輸出特征向量的一種重新表達,以盡可能還原原來的輸入信息為約束。因此,SVM分類器模型所得到的是一組抽象層次相當高的概念。在模型中通過改變每一層的節點數量對概念的表達長度進行壓縮,在本研究中SVM的輸入僅為模型輸入長度的■。 令網頁的向量空間表達的特征向量長度為d,即每個網頁pi為一個d維布爾向量,深度信念網絡執行基于概率的特征表達轉換,如公式(1)所示: p(x,y,h|?茲)=■(1) 其中?茲={b,c,d,W1,W2},E(?)是一個能量函數,模擬能量從輸入層到輸出層的傳播,E(?)的定義如公式(2)所示: E(x,y,h|?茲)=-bTx-cTh-dTy-xTW1h-hTW2y(2) 而Z(?茲)是一個邊緣分布函數,定義為: Z(?茲)=■exp(-E(x,y,h|?茲))(3) 在支持向量機作為輸出層的情況下,一個網頁x被分類為屬于某個主題yi的概率為: p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4) 其中sig(?)為函數。
結合公式(1)至(4),可以得到給定網頁x,它的主題向量的預測分布概率表達式: p(y|x)=■(5) 本文方法的訓練時間復雜度較高,但由于訓練只需進行一次,把得到的權重矩陣W放在分類器中,測試時根據公式(5)可以直接得到主題向量的預測分布,需要O(mn)的計算量。 3.實驗 采用一個互聯網上公開的網頁數據集“THE 4 ”對本文方法進行測試有什么主題的網頁設計,該數據集收集了幾所大學的計算機系網站上的網頁,包含了7個分類,分別是、、Staff、、、和Other。一共包含8282個網頁,平均網頁大小為26k。實驗中僅對網頁的文本內容進行分析,先對每個網頁生成一個15000維的詞向量,然后使用深度信念網絡進行概念提取有什么主題的網頁設計,得到一個102維的特征向量,最后使用多分類的支持向量機進行網頁主題的分類。根據經驗,深度信念網絡設計為15層,每層的節點數量遞減10%。訓練集和測試集按3:7的比例從整個數據集中隨機抽取進行構建。為了增加主題識別結果的穩定性,進行了10次隨機的劃分,并取其識別正確率的平均值作為最終的結果。
表1列出了本文方法對每個類別的識別正確率和CPU運行時間。 表1 算法在評估數據集上的正確率 從表1中可以看出,本文方法對實驗數據集的主題有較高的識別率,且對單個網頁的運行時間非常短,從而說明該方法對于提高主題爬蟲在識別網頁主題時的有效性和效率。 4.結論 本文提出了使用深度學習算法構建網頁主題爬蟲的設計方案,設計了一種多層的深度信念網絡,對多個受限波特曼機模型進行堆疊,有效解決了對網頁主題的內在概念的特征提取問題,使用支持向量機模型對經過概念轉換表達的網頁數據進行分類,在測試數據集上表明本文方法有較高的準確率且運行速度較快,從而說明本文方法的有效性。 參考文獻: [1]L.Deng and D.Yu, “Deep : and ,” Found. ., vol.7, no.4, pp. 197?C387, Jun. 2014. [2]M., J., and J.Cheng, “A deep to ab ,” IEEE/ACM Trans. . Biol. , vol.?12, no.1, pp. 103?C112, Jan. 2015. [3]J.Fu, T.Mei, K.Yang, H.Lu, and Y.Rui, “ with deep ,” in of the 24th on World Wide Web, ser. WWW ’15. and of , : World Wide Web , 2015, pp. 344?C354. [4]Z.Zuo, G.Wang, B.Shuai, L.Zhao, and Q.Yang, “ based deep and for scene image ,” ., vol.48, no.10, pp. 3004?C3015, Oct. 2015. [5]N. and R., “ with deep ,” J. Mach. Learn. Res., vol.15, no.1, pp. 2949?C2980, Jan. 2014. [6]A.M. , Y.Song, and X.He, “A multi-view deep for cross user in ,” in of the 24th on World Wide Web, ser. WWW ’15. and of , : World Wide Web , 2015, pp. 278?C288. [7]W.Zhang, R.Li, T.Zeng, Q.Sun, S.Kumar, J.Ye, and S.Ji, “Deep model based and multi-task for image ,” in of the 21th ACM on and Data , ser. KDD ’15. New York, NY, USA: ACM, 2015, pp. 1475?C1484. [8]H.Wang, N.Wang, and D.-Y. Yeung, “ deep for ,” in of the 21th ACM on and Data , ser. KDD ’15. New York, NY, USA: ACM, 2015, pp. 1235?C1244. [9]K.Jung, B.-T. Zhang, and P.Mitra, “Deep for the web,” in of the 24th on World Wide Web, ser. WWW ’15 . and of , : World Wide Web , 2015, pp. 1525?C1526. 作者簡介: 袁優(1981-),女,湖北人,大學本科,講師。研究方向:智能信息系統,統計學習。