Python爬蟲技巧：百萬級數據怎么爬取-精靈代理

<th id="bb20k"></th>

<th id="bb20k"></th>

<progress id="bb20k"></progress>

您的位置：新聞資訊 >文章內容

Python爬蟲技巧：百萬級數據怎么爬取

來源：一個英俊的麥太保作者：admin 時間：2018-11-27 14:42:03

如今互聯網時代，爬蟲無處不在，許多行業都使用爬蟲采集數據，比如電子商務行業，在大量的數據中可以挖掘有價值的資料。

采集的平臺有大有小，小平臺好采集，但大平臺就不容易了，除了反爬機制厲害之外，技術難度也增加了。如果需要采集上百萬的數據，應該怎么采集呢？下面跟精靈代理一起去了解一下百萬級數據怎么爬取。

一、百萬級的數據

1.目標網站的選擇

次我選擇的是大名鼎鼎的Stackoverflow, 程序員心中有兩大圣殿。一個是GitHub里面有很多很多好的庫和源碼，一個就是Stackoverflow里面有很多大牛幫忙回答問題。我們打開Stackoverflow，然后搜索Python相關的問題：

2.頁面分析

發現一共有88萬多個問題，再看一下頁面的列表規律，我們按照每頁最大顯示50個問題，一共有17776頁，數據非常大

Python爬蟲：百萬級數據怎么爬取

二、爬蟲的策略

目前為止我還沒有爬過這么大的數據量，這次看來必須要用神器了scrapy.其實在用神器之前，我們自己寫了多并發的多線程池，我測了一下速度還可以，爬取500個數據大概有6秒左右，跟scrapy差不多

Python爬蟲：百萬級數據怎么爬取

但是考慮到穩定性和方便擴展性，還是用Scrapy比較方便一些

1.頁面的爬取

scrapy的文章和資料非常多，基礎知識這里我就不細細講解.scrapy的內置功能非常強大，如果玩爬蟲scrapy是必須要學習的，使用起來需要按照它的套路，就像樂高玩具一樣，一塊一塊的搭起來就可以.下面我們講一下幾個關鍵的點:

1).頁面列表的構建

整個的stackoverflow上關于Python的問題頁面非常規整，我們可以很容易的構建列表，比如前1000頁range(1,1000),range(1000,2000)：

2).單頁面的爬取

我們用scrapy genspider產生一個spider文件，我們用這個文件主要爬取頁面的內容，每個問題的內容都非常的規則，我們用css非常容易可以提?。?/span>

百萬級數據怎么爬取

我們主要提取問題標題，問題描述，view，vote，answers，提問時間和用戶的名字這7個維度

百萬級數據怎么爬取

2.數據的存儲

我們需要在items.py里面構建一個存儲的數據結構類，把這個7個特征存起來

百萬級數據怎么爬取

然后在上面的spider類里面把頁面解析的數據一一對于存起來

item = StackoverflowItem()

item[ 'desc'] = desc

item[ 'title'] =title

item[ 'view'] =view

item[ 'answer'] =answer

item[ 'vote'] =vote

item[ 'start'] = start

item[ 'user'] = user

yield item

三、大規模的爬取

看起來好像一切順利，于是我們開始運行爬蟲爬取，大概爬取12000個數據左右,IP就會被封掉,大量的429 錯誤代碼會出現.很明顯有反爬的策略.這個時候我們的本機IP已經封掉了，這個時候想要繼續爬取，有兩個辦法：

第一種辦法：用代理IP

1).構建一個隨機的代理池

網上免費的代理IP池很多，我們可以自己本地解析這些網頁構建一個代理池，存在數據庫里面，也可以訪問一個付費的穩定的代理.

2).構建一個下載的中間價

Scrapy強大之處在于，它給了我們很多接口，擴展性非常好！基本上爬蟲的方方面面它都內置了，類似Django真是居家旅行必備。我們只需要幾行代碼就能搞定

Python爬蟲

不要忘記了在Setting里面配置一下：

DOWNLOADER_MIDDLEWARES= {

'stackoverflow.middlewares.RandomProxyMiddleware': 543,

}

但是代理的ip非常不穩定，尤其是免費的。而且代理IP爬取的時間會比本機更慢，畢竟中間加了中轉

第二種方法：重啟貓繼續用本機IP

一般重啟家里的路由器有的時候會換本機的IP地址，因為本機的IP地址爬取的速度是最快，然后放慢爬取的速度，加一些delay.

我采用了第二種方法，爬了999頁大概49950條數據，并且放慢了速度，大概需要20分鐘左右

我們一共有近90萬的數據需要爬取，如果按照這樣的速度去爬取的話，大概需要7個小時才能完全爬取完畢。Scrapy提供了非常完善的異常處理和log分析，即使我們中間爬取出錯了，我們依然可以獲得已經爬取的數據.當然有條件的話可以放在服務器上去爬取，速度會更快.

四、嘗鮮看一下數據

數據長啥樣，我們隨機拿5條出來看一下，數據比較粗糙沒有經過清洗，里面比較有價值的是它的view值和answer值，還有時間和標題

目前才近10萬條的數據，我們先嘗鮮看一下,里面最火的一個問題被998個人圍觀:

百萬級數據怎么爬取

結論：

上文詳細的介紹了百萬級數據怎么爬取，其實百萬數據的爬取其上沒有我們想象的那么難，只要熟練使用框架，控制爬取的速度，分段爬取還是可以的! 如果有穩定的代理池和高性能的服務器那就更爽啦。代理池可以自己搭建，也可以選擇購買，比如精靈代理，擁有上千萬的IP池，定期更新IP，滿足爬蟲需求。

相關資訊

1、代理IP地址怎么設置 2、怎么選購性價比高的代理IP 3、Python爬蟲遇到403怎么解決 4、打碼任務應該怎么換IP 5、谷歌瀏覽器怎么設置代理服務器 6、火狐Firefox瀏覽器代理怎么設置

相關文章內容簡介

國內住宅IP代理使用指南

精靈代理-專業提供國內動態ip代理 ip加速器 http代理網絡加速器服務，企業級代理IP服務 API支持自建代理服務器安全穩定高效。國內住宅IP代理使用指南隨著互聯網的發展和普及，許多人在日常生活和工作中都需要使用代理工具來訪問特定網站或保護個人隱私。而在選擇代理時，國內住宅IP代理成為了越來越多人的首選。本文將為大家介紹國內住宅IP代理的使用指南，幫助大家更好地利用這一工具。一、了解國內住宅IP代理的特點國內住宅IP代理是指利用在國內的住宅網絡環境下獲取的IP地址進行代理服務。相比其他類型的代理，國內住宅IP代理具有更高的穩定性和安全性，能夠更好地模擬真實用戶的上網行為，提高訪問成功率。同時，由于IP地址是來自真實的住宅網絡環境，使用起來更加安全可靠。二、選擇合適的國內住宅IP代理服務商在選擇國內住宅IP代理服務商時，需要注意以下幾點：首先是IP地址的穩定性和可靠性，確保能夠正常訪問目標網站；其次是服務商的信譽和口碑，選擇有良好口碑和專業服務的代理提供商；最后是價格和服務質量的平衡，不要只看價格而忽視了服務質量。三、配置代理設置在使用國...[閱讀全文]

解鎖高速不限量IP代理

精靈代理-專業提供國內動態ip代理 ip加速器 http代理網絡加速器服務。解鎖高速不限量IP代理在當今互聯網時代，隨著網絡安全和隱私保護意識的提高，許多人都開始關注如何保護自己的在線活動不受跟蹤和監視。IP代理就成為了一種常用的工具，通過隱藏真實IP地址來保護個人隱私和保密性。而高速不限量IP代理更是用戶們追求的目標。高速代理的重要性對于許多用戶來說，網絡速度是使用代理時最關鍵的問題之一。如果代理速度太慢，會導致網頁加載緩慢，甚至無法正常使用某些服務。因此，高速代理變得尤為重要。高速代理可以確保用戶在使用代理時，不會受到速度的限制，能夠正常流暢地訪問各種網站和服務。不限量代理的優勢另外，不限量的代理也是用戶們所追求的。有些代理服務提供商會對用戶的流量進行限制，一旦超出限制就會導致代理服務無法正常使用。而不限量的代理則可以避免這個問題，用戶可以隨意使用代理服務，不用擔心流量限制的問題。如何解鎖高速不限量IP代理要解鎖高速不限量IP代理，首先需要選擇一個可靠的代理服務提供商。在選擇代理服務提供商時，用戶需要注意服務商的信譽度、服務質量和價格等因素...[閱讀全文]

推薦閱讀

1、代理服務器有什么作用？分享個好用的代理IP軟件11-15 2、IP突然被封了怎么辦？切換IP解封最快11-16 3、使用免費代理IP安全嗎？代理IP用哪種好？11-19 4、Python爬蟲怎么提取免費IP12-12 5、爬蟲如何實現多線程分步爬取12-14 6、用爬蟲會遇到哪些問題以及爬蟲常見問題案例分析12-17

熱門文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么設置09-20 3、http代理和https代理的區別09-21 4、代理服務器的分類有哪些09-18 5、代理服務器是什么09-18 6、代理IP有什么用09-20 7、代理服務器的工作原理09-21 8、HTTP代理與SOCKS代理的區別09-18

隨機推薦

1、python爬蟲怎么用代理IP？四種添加代理IP的方法12-25 2、爬蟲怎么突破反爬蟲機制？常見六種破解方法11-26 3、Python語言為什么那么火？Python的五大優勢01-03 4、爬蟲一定要用Python語言嗎？01-08

在線咨詢

800819103

在線客服，實時響應

qq群

在線客服，實時響應

客服電話

13318873961

微信公眾號

微信公眾號

国产欧美一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线