這個項目目前還很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過這個工具可以抓取各類論壇,貼吧,以及各類CMS系統。像!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開發人員使用。
使用方法, 1.下載右邊的.war包導入到中, 2.使用/sql下的wcc.sql文件建立一個范例數據庫, 3.修改src包下wcc.core的.txt,將用戶名與密碼設置成你自己的mysql用戶名密碼。 4.然后運行,運行時候會在控制臺,無參數會執行默認的.xml的配置文件,帶參數時候名稱為配置文件名。
系統自帶了3個例子,分別為baidu.xml抓取百度知道,.xml抓取我的的博客,bbs.xml抓取一個采用 論壇的內容。
授權協議: MIT
開發語言: Java
操作系統: 跨平臺
特點:通過XML配置文件實現高度可定制性與可擴展性
12.
是一個基于微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取并解析為自己所需要的業務數據。
怎么使用?
首先,確定好你的目標網站以及目標網頁(即某一類你想要獲取數據的網頁,例如網易新聞的新聞頁面)
然后,打開目標頁面,分析頁面的HTML結構,得到你想要數據的XPath,具體XPath怎么獲取請看下文。
最后,在一個xml配置文件里填寫好參數,運行吧!
授權協議:
開發語言: Java
操作系統: 跨平臺
特點:靈活、擴展性強,微內核+插件式架構,通過簡單的配置就可以完成數據抓取,無需編寫一句代碼
13.
的是一個無須配置、便于二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。
采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/等功能。
包含強大的頁面抽取功能,開發者可以便捷的使用css 、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。
的使用文檔:
查看源代碼:
授權協議:
開發語言: Java
操作系統: 跨平臺
特點:功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取。
14.Web-
Web-是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。Web-主要是運用了像XSLT,,正則表達式等這些技術來實現對text/xml的操作。
其實現原理是,根據預先定義的配置文件用獲取頁面的全部內容(關于的內容,本博有些文章已介紹),然后運用XPath、、正則表達式等這些技術來實現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類似的原理實現的。Web-應用,關鍵就是理解和定義配置文件,其他的就是考慮怎么處理數據的Java代碼。當然在爬蟲開始前,也可以把Java變量填充到配置文件中,實現動態的配置。
授權協議: BSD
開發語言: Java
特點:運用XSLT、、正則表達式等技術來實現對Text或XML的操作,具有可視化的界面
15.
是一個Java類包和Web爬蟲的交互式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。由兩部分組成:爬蟲工作平臺和類包。
授權協議:
開發語言:Java
特點:由兩部分組成:爬蟲工作平臺和類包
16.YaCy
YaCy基于p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基于p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式等.
授權協議: GPL
開發語言: Java Perl
操作系統: 跨平臺
特點:基于P2P的分布式Web搜索引擎
爬蟲17.
是一個簡單的信息收集工具,它可以幫助你查找子域名名稱、 zone 、收集電子郵件地址和使用尋找人際關系等。使用編寫,支持linux和 操作系統。
授權協議: GPLv3
開發語言:
操作系統: Linux
特點:具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能
18.
這是一個非常簡單易用的抓取工具。支持抓取渲染的頁面的簡單實用高效的網頁爬蟲抓取模塊
授權協議: MIT
開發語言:
操作系統: 跨平臺 Linux OS X
特點:簡潔、輕量、高效的網頁抓取框架
下載:#
19.
是一套基于基于的異步處理框架,純實現的爬蟲框架,用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~
授權協議: BSD
開發語言:
操作系統: 跨平臺
源代碼:
特點:基于的異步處理框架,文檔齊全
C++爬蟲20.
is a fast and high with high speed
嚴格說只能是一個系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置.ini ).
特征和用法:
工作流程:
授權協議: BSD
開發語言: C/C++
操作系統: Linux
特點:支持多機分布式下載, 支持網站定向下載
21.
是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sé 獨立開發。目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。只是一個爬蟲,也就 是說只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 也不提供。一個簡單的的爬蟲可以每天獲取500萬的網頁。
利用,我們可以輕易的獲取/確定單個網站的所有鏈接,甚至可以鏡像一個網站;也可以用它建立url 列表群,例如針對所有的網頁進行 url 后,進行xml的聯結的獲取。或者是 mp3,或者定制,可以作為搜索引擎的信息的來源。
授權協議: GPL
開發語言: C/C++
操作系統: Linux
特點:高性能的爬蟲軟件,只負責抓取不負責解析
22.
是一個經過速度優化的高可配置的 WEB、FTP、本地文件系統的爬蟲軟件。
授權協議: 未知
開發語言: C/C++
操作系統: Linux
特點:過速度優化、可抓取WEB、FTP及本地文件系統
源代碼:
C#爬蟲23.
是一款開源,C#開發網絡爬蟲程序。
特性:
可配置:線程數,等待時間,連接超時,允許MIME類型和優先級,下載文件夾。
統計信息:URL數量,總下載文件,總下載字節數,CPU利用率和可用內存。
:用戶可以設置優先級的MIME類型。
: 10+ URL rules, trap rules.
授權協議: GPLv2
開發語言: C#
操作系統:
項目主頁:
特點:統計信息、執行過程可視化
24.
國內第一個針對微博數據的爬蟲程序!原名“新浪微博爬蟲”。
登錄后,可以指定用戶為起點,以該用戶的關注人、粉絲為線索,延人脈關系搜集用戶基本信息、微博數據、評論數據。
該應用獲取的數據可作為科研、與新浪微博相關的研發等的數據支持,但請勿用于商業用途。該應用基于.NET2.0框架,需SQL 作為后臺數據庫,并提供了針對SQL 的數據庫腳本文件。
另外,由于新浪微博API的限制獲取網站完整源碼工具,爬取的數據可能不夠完整(如獲取粉絲數量的限制、獲取微博數量的限制等)
5.x版本已經發布! 該版本共有6個后臺工作線程:爬取用戶基本信息的機器人、爬取用戶關系的機器人、爬取用戶標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節請求頻率的機器人。更高的性能!最大限度挖掘爬蟲潛力! 以現在測試的結果看,已經能夠滿足自用。
本程序的特點:
授權協議: GPLv3
開發語言: C# .NET
操作系統:
25.
是一個以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk()和utf8編碼的資源; 存儲于數據文件.
源碼中TODO:標記描述了未完成功能, 希望提交你的代碼.
授權協議: MIT
開發語言: C#
操作系統:
源代碼:
特點:以遞歸樹為模型的多線程web爬蟲程序,支持以GBK ()和utf8編碼的資源獲取網站完整源碼工具,使用存儲數據
26.Web
mart and Web 是一個Web爬蟲框架。集成支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置 過濾器限制爬回來的鏈接,默認提供三個過濾器、和 ter,這三個過濾器可用AND、OR和NOT聯合。在解析過程或頁面加載前后都可以加監聽器。介紹內容來自Open-Open
開發語言: Java
操作系統: 跨平臺
授權協議: LGPL
特點:多線程,支持抓取PDF/DOC/EXCEL等文檔來源
27.網絡礦工
網站數據采集軟件 網絡礦工采集器(原采摘)
采摘網站數據采集軟件是一款基于.Net平臺的開源軟件,也是網站數據采集軟件類型中唯一一款開源軟件。盡管采摘開源,但并不會影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
授權協議: BSD
開發語言: C# .NET
操作系統:
特點:功能豐富,毫不遜色于商業軟件
PHP爬蟲28.
是一個開源多線程Web (robot:機器人,:爬蟲)和包含許多有趣功能的搜索引擎。
授權協議: 未知
開發語言: PHP
操作系統: 跨平臺
特點:開源多線程網絡爬蟲,有許多有趣的功能
29.
是一個采用PHP開發的Web爬蟲和搜索引擎。通過對動態和靜態頁面進行索引建立一個詞匯表。當搜索查詢時,它將按一定的排序規則顯示包含關 鍵字的搜索結果頁面。包含一個模板系統并能夠索引PDF,Word,Excel,和文檔。適用于專業化更 強、層次更深的個性化搜索引擎,利用它打造針對某一領域的垂直搜索引擎是最好的選擇。
演示:
授權協議: GPL
開發語言: PHP
操作系統: 跨平臺
特點:具有采集網頁內容、提交表單功能
30.
是一個可以采集推特,等社交網絡數據的社會媒體視角引擎。通過采集個人的社交網絡賬號中的數據,對其存檔以及處理的交互分析工具,并將數據圖形化以便更直觀的查看。
授權協議: GPL
開發語言: PHP
操作系統: 跨平臺
源碼:
特點:采集推特、臉譜等社交網絡數據的社會媒體視角引擎,可進行交互分析并將結果以可視化形式展現
31.微購
微購社會化購物系統是一款基于框架開發的開源的購物分享系統,同時它也是一套針對站長、開源的的淘寶客網站程序,它整合了淘寶、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長提供傻瓜式淘客建站服務,會HTML就會做程序模板,免費開放下載,是廣大淘客站長的首選。
演示網址:
授權協議: GPL
開發語言: PHP
操作系統: 跨平臺
爬蟲32.Ebot
Ebot 是一個用 語言開發的可伸縮的分布式網頁爬蟲,URLs 被保存在數據庫中可通過 的 HTTP 請求來查詢。
授權協議: GPLv3
開發語言:
操作系統: 跨平臺
源代碼:
項目主頁:
特點:可伸縮的分布式網頁爬蟲
Ruby爬蟲33.Spidr
Spidr 是一個Ruby 的網頁爬蟲庫,可以將整個網站、多個網站、某個鏈接完全抓取到本地。
開發語言: Ruby
授權協議:MIT
特點:可將一個或多個網站、某個鏈接完全抓取到本地
版權聲明:轉載文章和圖片均來自公開網絡,版權歸作者本人所有,推送文章除非無法確認,我們都會注明作者和來源。如果出處有誤或侵犯到原作者權益,請與我們聯系刪除或授權事宜。