二原告訴稱,作為全球知名的互聯網綜合服務提供商,其商標和商號在業內享有廣泛的知名度與美譽度。近期,二原告發現“糗事百科”網站上發布了大量針對騰訊公司的虛假性信息及詆毀性言論,聲稱“完了,騰訊抄襲到我們頭上了,真不要臉”,無端指責騰訊公司盜版和抄襲“糗事百科”;利用經處理后的虛假圖片編造騰訊公司要求用戶在一周內充值一千元否則予以封號處理的虛假消息;發布近百個謾罵侮辱騰訊公司的信息,引發網友對騰訊公司極富貶低、侮辱、謾罵性質的負面評論。
二原告認為,友際無限(北京)科技有限公司作為與騰訊公司具有競爭關系的互聯網服務主體,在其運營的“糗事百科”網站上公開詆毀競爭對手,傳播誤導性、虛假性、詆毀性信息,嚴重侵害了騰訊公司的商業信譽和商品聲譽,并造成嚴重的經濟損害,已構成不正當競爭。
據了解,日前,海淀法院受理了此案。目前,本案正在進一步審理中。
ttp://www.qiushibaike.com/text/
爬取網站前的思路要有
1.抓取內容的加載方式
2.分頁問題
3.選擇解析庫(scrapy/requests+Beautifulsoup)
需要東西可以加我的群
加載方式
分頁問題
點擊下一頁或者切換到某一頁之后URL的變化
通過以上幾張圖片可以看出糗事百科的分頁是通過page之后的數字控制的,所以我們可以很容易構造出它的分頁URL
urls=[self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
這一塊整明白之后,我們就可以去寫代碼抓取信息了。
正題
爬取要求
糗百 http://www.qiushibaike.com/text/
包括:作者,性別,年齡,段子內容,好笑數,評論數
信息
循環點
男
女
結果
學習過程中遇到什么問題或者想獲取學習資源的話,歡迎加入學習交流群
626062078,我們一起學Python!
認為“糗事百科”網站發布、傳播虛假信息,損害了其商業信譽和商品聲譽,深圳市騰訊計算機系統有限公司和騰訊科技(北京)有限公司以不正當競爭糾紛為由,將“糗事百科”運營商友際無限(北京)科技有限公司訴至法院,要求其停止侵權、賠禮道歉,并賠償損失50萬元。日前,海淀法院受理了此案。(海淀法院網)