案例實戰：爬蟲怎么爬取新聞信息-精靈代理

<th id="bb20k"></th>

<th id="bb20k"></th>

<progress id="bb20k"></progress>

您的位置：新聞資訊 >文章內容

案例實戰：爬蟲怎么爬取新聞信息

來源：后端漫談作者：admin 時間：2018-12-04 17:25:30

爬蟲可以大量的爬取數據，通過整合數據，可以挖掘有價值的信息，常常應用于電商等行業。許多新手也想通過自學，學會爬蟲的編寫，實現數據的爬取。今天精靈代理小編跟大家分享爬取新聞信息的案例，至于爬蟲怎么爬取新聞信息，就跟小編一起去了解一下。

一、爬取目的

主要是爬取網易新聞，包括新聞標題、作者、來源、發布時間、新聞正文。

二、爬取步驟

1.找出請求地址

我們打開163的網站，我們隨意選擇一個分類，這里我選的分類是國內新聞。然后鼠標右鍵點擊查看源代碼，發現源代碼中并沒有頁面正中的新聞列表。這說明此網頁采用的是異步的方式。也就是通過api接口獲取的數據。

那么確認了之后可以使用F12打開谷歌瀏覽器的控制臺，點擊 Network，我們一直往下拉，發現右側出現了："… special/00804KVA/cm_guonei_03.js? … "之類的地址，點開Response發現正是我們要找的api接口。

可以看到這些接口的地址都有一定的規律：“cm_guonei_03.js”、“cm_guonei_04.js”，那么就很明顯了：

http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

上面的鏈接也就是我們本次抓取所要請求的地址。

接下來只需要用到的python的兩個庫：

2.開始編寫爬蟲

先導入requests、json、BeautifulSoup三個包。requests庫就是用來進行網絡請求的，說白了就是模擬瀏覽器來獲取資源。由于我們采集的是api接口，它的格式為json，所以要用到json庫來解析。BeautifulSoup是用來解析html文檔的，可以很方便的幫我們獲取指定div的內容。

接著我們定義一個獲取指定頁碼內數據的方法：

這樣子就得到每個頁碼對應的內容列表：

案例實戰：爬蟲怎么爬取新聞信息

之后通過分析數據可知下圖圈出來的則是需要抓取的標題、發布時間以及新聞內容頁面。

既然現在已經獲取到了內容頁的url，那么接下來開始抓取新聞正文。

在抓取正文之前要先分析一下正文的html頁面，找到正文、作者、來源在html文檔中的位置。

我們看到文章來源在文檔中的位置為：id = “ne_article_source” 的 a 標簽。作者位置為：class = “ep-editor” 的 span 標簽。正文位置為：class = “post_text” 的 div 標簽。

下面采集這三個內容的代碼：

案例實戰：爬蟲怎么爬取新聞信息

到此為止我們所要抓取的所有數據都已經采集了，為了方便直接采取文本的形式來保存。

格式為json字符串，“標題” ： [ ‘日期’， ‘url’， ‘來源’， ‘作者’， ‘正文’ ]。

要注意的是目前實現的方式是完全同步的，線性的方式，存在的問題就是采集會非常慢。主要延遲是在網絡IO上，下次可以升級為異步IO，異步采集，有興趣的可以關注下次的文章。

上文比較詳細的介紹了爬蟲怎么爬取新聞信息，通過本次練手，各位應該會對爬蟲有一個入門級的了解。作為一位新手，還是多動手，多實踐，才能學到東西，僅僅是看，學不會。

相關資訊

1、三個新手學習Python爬蟲簡單案例 2、案例實戰：爬蟲怎么爬取新聞信息 3、用爬蟲會遇到哪些問題以及爬蟲常見問題案例分析 4、java爬蟲怎么爬取知乎問答的案例 5、爬蟲為什么需要代理ip 6、爬蟲為什么要使用代理IP

相關文章內容簡介

國內住宅IP代理使用指南

精靈代理-專業提供國內動態ip代理 ip加速器 http代理網絡加速器服務，企業級代理IP服務 API支持自建代理服務器安全穩定高效。國內住宅IP代理使用指南隨著互聯網的發展和普及，許多人在日常生活和工作中都需要使用代理工具來訪問特定網站或保護個人隱私。而在選擇代理時，國內住宅IP代理成為了越來越多人的首選。本文將為大家介紹國內住宅IP代理的使用指南，幫助大家更好地利用這一工具。一、了解國內住宅IP代理的特點國內住宅IP代理是指利用在國內的住宅網絡環境下獲取的IP地址進行代理服務。相比其他類型的代理，國內住宅IP代理具有更高的穩定性和安全性，能夠更好地模擬真實用戶的上網行為，提高訪問成功率。同時，由于IP地址是來自真實的住宅網絡環境，使用起來更加安全可靠。二、選擇合適的國內住宅IP代理服務商在選擇國內住宅IP代理服務商時，需要注意以下幾點：首先是IP地址的穩定性和可靠性，確保能夠正常訪問目標網站；其次是服務商的信譽和口碑，選擇有良好口碑和專業服務的代理提供商；最后是價格和服務質量的平衡，不要只看價格而忽視了服務質量。三、配置代理設置在使用國...[閱讀全文]

解鎖高速不限量IP代理

精靈代理-專業提供國內動態ip代理 ip加速器 http代理網絡加速器服務。解鎖高速不限量IP代理在當今互聯網時代，隨著網絡安全和隱私保護意識的提高，許多人都開始關注如何保護自己的在線活動不受跟蹤和監視。IP代理就成為了一種常用的工具，通過隱藏真實IP地址來保護個人隱私和保密性。而高速不限量IP代理更是用戶們追求的目標。高速代理的重要性對于許多用戶來說，網絡速度是使用代理時最關鍵的問題之一。如果代理速度太慢，會導致網頁加載緩慢，甚至無法正常使用某些服務。因此，高速代理變得尤為重要。高速代理可以確保用戶在使用代理時，不會受到速度的限制，能夠正常流暢地訪問各種網站和服務。不限量代理的優勢另外，不限量的代理也是用戶們所追求的。有些代理服務提供商會對用戶的流量進行限制，一旦超出限制就會導致代理服務無法正常使用。而不限量的代理則可以避免這個問題，用戶可以隨意使用代理服務，不用擔心流量限制的問題。如何解鎖高速不限量IP代理要解鎖高速不限量IP代理，首先需要選擇一個可靠的代理服務提供商。在選擇代理服務提供商時，用戶需要注意服務商的信譽度、服務質量和價格等因素...[閱讀全文]

推薦閱讀

1、火狐Firefox瀏覽器代理怎么設置10-31 2、代理IP可以匿名嗎？精靈代理ip池內所有ip為高匿！11-21 3、高匿名代理效果怎么樣？安全嗎？11-21 4、網絡爬蟲怎么預防被封殺？通用五種預防方法介紹12-11 5、爬蟲的入門基礎，先搞懂爬蟲與框架、網頁的關系12-13 6、python爬蟲怎么用代理IP？四種添加代理IP的方法12-25

熱門文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么設置09-20 3、http代理和https代理的區別09-21 4、代理服務器的分類有哪些09-18 5、代理服務器是什么09-18 6、代理IP有什么用09-20 7、代理服務器的工作原理09-21 8、HTTP代理與SOCKS代理的區別09-18

隨機推薦

1、代理服務器原理及在網絡中的應用10-18 2、怎么建免費爬蟲代理ip池？使用代理IP池效果怎樣11-09 3、用HTTP代理還是Socks代理好11-14 4、python爬蟲怎么用代理IP？四種添加代理IP的方法12-25

在線咨詢

800819103

在線客服，實時響應

qq群

在線客服，實時響應

客服電話

13318873961

微信公眾號

微信公眾號

国产欧美一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线