▼
本書介紹了如何利用開發網絡爬蟲書中首先詳細介紹了環境配置過程和爬蟲基礎知識;然后討論了 等請求庫, Soup XPath 等解析庫以及文本和各類數據庫的存儲方法;接著通過多個案例介紹了如何進行Ajax數據爬取,如何使用 進行動態網站爬取;再后介紹了爬蟲的一些技巧,比如使用代理爬取和維護動態代理池的方法,ADSL撥號代理的使用,圖形極驗、點觸、宮格等各類驗證碼的破解方法,模擬登錄網站爬取的方法及池的維護。
此外,本書還結合移動互聯網的特點探討了使用 等工具實現App爬取的方法,緊接著介紹了框架和框架的使用,以及分布式爬蟲的知識,最后介紹了效率優化、 爬蟲部署爬蟲管理等方面的知識。
本書適合程序員閱讀。
3網絡爬蟲開發實戰
▼
(全文略)
第1章 介紹了本書所涉及的所有環境的配置詳細流程linux下怎么爬取動態頁面,兼顧、Linux、Mac三大平臺。本章不用逐節閱讀,需要的時候查閱即可。
第2章 介紹了學習爬蟲之前需要了解的基礎知識,如HTTP、爬蟲、代理的基本原理、網頁基本結構等內容,對爬蟲沒有任何了解的讀者建議好好了解這一章的知識。
第3章 介紹了最基本的爬蟲操作,一般學習爬蟲都是從這步學起的。這一章介紹了最基本的兩個請求庫(urlib和)和正則表達式的基本用法。學會了這一章,就可以掌握最基本的爬蟲技術了。
第4章 介紹了頁解析庫的基本用法,包括 Soup、XPath、 的基本使用方法,它們可以使得信息的提取更加方便、快捷,是爬蟲必備利器。
第5章 介紹了數據存儲的常見形式及存儲操作,包括TXT、JSON、CSV各種文件的存儲,以及關系型數據庫MySQL和非關系型數據庫、Redis存儲的基本存儲操作。學會了這些內容,我們可以靈活方便地保存爬取下來的數據。
第6章 介紹了Ajax數據爬取的過程,些網頁的數據可能是通過Ajax請求API接口的方式加載的,用常規方法無法爬取,本章介紹了使用Ajax進行數據爬取的方法。
第7章 介紹了動態渲染頁面的爬取,現在越來越多的網站內容是經過演染得到的,而原始HTML文本可能不包含任何有效內容,而且演染過程可能涉及某些加密算法,可以使用、等工具來實現模擬瀏覽器進行數據爬取的方法。
第8章 介紹了驗證碼的相關處理方法。驗證碼是網站反爬蟲的重要措施,我們可以通過本章了解到各類驗證碼的應對方案linux下怎么爬取動態頁面,包括圖形驗證碼、極驗驗證碼、點觸驗證碼、微博宮格驗證碼的識別。
第9章 介紹了代理的使用方法,限制IP的訪問也是網站反爬蟲的重要措施。另外,我們也可以使用代理來偽裝爬蟲的真實IP,使用代理可以有效解決這個問題。通過本章,我們了解到代理的使用方法,還學習了代理池的維護方法,以及ADSL撥號代理的使用方法。
第10章 介紹了模擬登錄爬取的方法,某些網站需要登錄才可以看到需要的內容,這時就需要用爬蟲模擬登錄網站再進行爬取了。本章介紹了最基本的模擬登錄方法以及維護一個池的方法。
第11章 介紹了App的爬取方法,包括基本的、抓包軟件的使用。此外,還介紹了對接腳本進行實時抓取的方法,以及使用完全模擬手機App的操作進行爬取的方法。
第12章 介紹了爬蟲框架及用法,該框架簡潔易用、功能強大,可以節省大量開發爬蟲的時間。本章結合案例介紹了使用該框架進行爬蟲開發的方法。
第13章 介紹了爬蟲框架及用法。是目前使用最廣泛的爬蟲框架,本章介紹了它的基本架構、原理及各個組件的使用方法,另外還介紹了通用化配置、對接的一些方法。
第14章 介紹了分布式爬蟲的基本原理及實現方法。為了提高爬取效率,分布式爬蟲是必不可少的,本章介紹了使用和Redis實現分布式爬蟲的方法。
第15章 介紹了分布式爬蟲的部署及管理方法。方便快速地完成爬蟲的分布式部署,可以節省開發者大量的時間。本章結合 、 、、 等工具介紹了分布式爬蟲部署和管理的實現。
附: 3網絡爬蟲開發實戰.pdf
公眾號VIP會員,私信群主索取本文件。
辦理公眾號VIP會員,在公眾號會話窗口回復:VIP可查看相關介紹。
▲
- The end -