800819103
在線客服,實時響應qq群
在線客服,實時響應客服電話
13318873961
提取數據能夠獲得許多有用的信息,但在采集是通常會遇到一些問題而導致爬蟲被封,其中采集速度問題如何解決呢?怎么控制爬蟲速度?參考做法:
1.修改是否遵守爬蟲協議為False
2.修改并發請求數,修改為1,或者2,越小爬取速度越慢,太快容易被識別到
3.修改下載延遲時間,DOWNLOAD_DELAY設置越大請求越慢
4.開啟中間鍵
5.開啟PIPELINES,一般在要存儲數據的時候開啟
6.開啟如下設置
爬取的過程中遇到一個問題就是,如果爬取頁面設置為從page1到page10000,爬取的結果有很多漏掉的。然后將設置修改為如上,還是會有漏掉的。
解決辦法是將DOWNLOAD_DELAY時間設置的更大一些。
怎么控制爬蟲速度方法不少,以上僅供參考!如果需要使用代理IP突破IP限制問題,建議使用精靈代理,精靈代理擁有上千萬的IP池,IP均來源于家庭撥號,IP真實。