5.支持OAuth認證。
6.支持POST請求。
7.支持搜索欄的關鍵詞搜索采集。
8.支持JS動態生成頁面采集。
9.支持IP代理采集。
10.支持圖片采集。
11.支持本地目錄采集。
12.內置面向對象的腳本語言系統,配置腳本可以采集幾乎100%的互聯網信息。
二.高質量數據:精準采集所需數據
1.獨立知識產權JS引擎,精準采集。
2.內部集成數據庫,數據直接采集入庫。
3.內部創建數據表結構,抓取數據后直接存入數據庫相應字段。
4.根據dom結構自動過濾無關信息。
5.通過模板配置鏈接抽取和數據抽取,目標網站的所有可見內容均可采集,智能過濾無關信息。
6.采集前數據可預覽采集,隨時調整模板配置,提升數據精度和質量。
7.字段的數據支持多種處理方式。
8.支持正則表達式,精準處理數據。
9.支持腳本配置,精確處理字段的數據。
三.高性能:千萬級的采集速度
1.C++編寫的爬蟲,具備絕佳采集性能。
2.支持多線程采集。
3.臺式機單機采集能力可達4000-8000萬,日采集能力超過500萬。
4.服務器單機集群環境的采集能力可達8億-16億,日采集能力超過4000萬。
5.并行情況下可支撐百億以上規模數據鏈接,堪與百度等搜索引擎系統媲美。
6.軟件性能穩健,穩定性好。
四.簡易高效:節約70%的配置時間
1.完全可視化的配置界面,操作流程順暢簡易。
2.基本不需要計算機基礎,代碼薄弱人員也可快速上手網絡上信息抓取程序,降低操作門檻,節省企業爬蟲工程師成本。
3.過濾采集入庫一步到位,集成表結構配置、鏈接過濾、字段取值、采集預覽、數據入庫。
4.數據智能排重。
5.內置瀏覽器,字段取值直接在瀏覽器上可視化定位。
五. 數據管理:多次排重
1. 內置數據庫,數據采集完畢直接存儲入庫。
2. 在軟件內部創建數據表和數據字段,直接關聯數據庫。
3. 采集數據時配置數據模板,網頁數據直接存入對應數據表的相應字段。
4. 正式采集之前預覽采集結果,有問題及時修正配置。
5. 數據表可導出為csv格式,在Excel工作表中瀏覽。
6. 數據可智能排除,二次清洗過濾。
六. 智能:智能模擬用戶和瀏覽器行為
1.智能模擬瀏覽器和用戶行為,突破反爬蟲限制。
2.自動抓取網頁的各類參數和下載過程的各類參數。
3.支持動態IP代理加速,智能過濾無效IP代理,提升代理的利用效率和采集質量。
4.支持動態調整數據抓取策略網絡上信息抓取程序,多種策略讓您的數據無需重采,不再擔心漏采,數據采集更智能。
5.自動定時采集。
6.設置采集任務條數,自動停止采集。
7.設置文件大小閾值,自動過濾超大文件。
8.自由設置瀏覽器是否加速,自動過濾頁面的flash等無關內容。
9.智能定位字段取值區域。
10.可以根據字符串特征自動定位取值區域。
11.智能識別表格的多值,表格數據可以完美存入相應字段。
七. 優質服務
1.數據采集完全在本地進行,保證數據安全性。
2.提供大量的各個網站配置模板在線下載,用戶可以自由導入導出。
3.升級后續不斷開發的更多功能。
4.更換2次綁定的計算機。
5.為用戶提供各類高端定制化服務,全方位來滿足用戶的數據需求。