800819103
在線客服,實時響應qq群
在線客服,實時響應客服電話
13318873961
隨著互聯網的普及和發展,各種數據集中在互聯網上,面對如此龐大的數據信息,如何進行采集、分析、歸納及分類呢,人工方法肯定不可取,效率太差。這時候Python爬蟲開始展露頭角,并且迅速成為最受歡迎的爬蟲開發語言。
但是,在采集信息時我們經常會遇到一些問題,比如403禁止訪問錯誤。遇到這個問題我們應該如何解決呢?
在Python寫爬蟲的時候,html.getcode()會遇到403禁止訪問的問題,這是網站對自動化爬蟲的禁止,要解決這個問題,需要用到Python的模塊urllib2模塊。urllib2模塊是屬于一個進階的爬蟲抓取模塊,有非常多的方法,比方說連接url=http//blog.xxxx.net/qysh123。對于這個連接就有可能出現403禁止訪問的問題,而解決這個問題,需要以下幾步驟:
span style=font-size18pxreq = urllib2.Request(url)
req.add_header(User-Agent,Mozilla/5.0 (Windows NT 6.3 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36)
req.add_header(GET,url)
req.add_header(Host,blog.csdn.net)
req.add_header(Referer,http//blog.xxxx.net/)/span
其中User-Agent是瀏覽器特有的屬性,通過瀏覽器查看源代碼就可以查看到,然后
html=urllib2.urlopen(req)
print html.read()
就可以把網頁代碼全部下載下來,而沒有了403禁止訪問的問題。
其實對于這個問題,可以封裝成函數,供以后調用方便使用,這里由于篇幅問題就不貼出全部代碼了。其中,用到了random隨機函數,自動獲取已經寫好的瀏覽器類型的User-Agent信息,在自定義函數中需要寫出自己的Host,Referer,GET信息等,解決這幾個問題,就可以順利訪問了,不再出現403訪問的信息。
當然,如果訪問頻率過快的話,有些網站還是會過濾的,要解決這個問題,一是降低訪問頻率,但意味著效率下降,二是采用大量的代理IP,這是使用的比較多的方法。
精靈代理IP平臺專業提供HTTP代理IP服務,有效地解決了爬蟲工作受限制問題,HTTP代理IP的出現,使得爬蟲工作效率更為高效,更為輕松,更為容易,有效地促進了大數據時代的進程和發展。