• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        Python爬蟲遇到403怎么解決
        來源:本站 作者:jinglingdaili 時間:2018-10-11 16:32:36

        隨著互聯網的普及和發展,各種數據集中在互聯網上,面對如此龐大的數據信息,如何進行采集、分析、歸納及分類呢,人工方法肯定不可取,效率太差。這時候Python爬蟲開始展露頭角,并且迅速成為最受歡迎的爬蟲開發語言。


        但是,在采集信息時我們經常會遇到一些問題,比如403禁止訪問錯誤。遇到這個問題我們應該如何解決呢?


        在Python寫爬蟲的時候,html.getcode()會遇到403禁止訪問的問題,這是網站對自動化爬蟲的禁止,要解決這個問題,需要用到Python的模塊urllib2模塊。urllib2模塊是屬于一個進階的爬蟲抓取模塊,有非常多的方法,比方說連接url=http//blog.xxxx.net/qysh123。對于這個連接就有可能出現403禁止訪問的問題,而解決這個問題,需要以下幾步驟:

          

        span style=font-size18pxreq = urllib2.Request(url) 

        req.add_header(User-Agent,Mozilla/5.0 (Windows NT 6.3 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36) 

        req.add_header(GET,url) 

        req.add_header(Host,blog.csdn.net) 

        req.add_header(Referer,http//blog.xxxx.net/)/span 


        其中User-Agent是瀏覽器特有的屬性,通過瀏覽器查看源代碼就可以查看到,然后

        html=urllib2.urlopen(req)

        print html.read()


        就可以把網頁代碼全部下載下來,而沒有了403禁止訪問的問題。


        其實對于這個問題,可以封裝成函數,供以后調用方便使用,這里由于篇幅問題就不貼出全部代碼了。其中,用到了random隨機函數,自動獲取已經寫好的瀏覽器類型的User-Agent信息,在自定義函數中需要寫出自己的Host,Referer,GET信息等,解決這幾個問題,就可以順利訪問了,不再出現403訪問的信息。


        當然,如果訪問頻率過快的話,有些網站還是會過濾的,要解決這個問題,一是降低訪問頻率,但意味著效率下降,二是采用大量的代理IP,這是使用的比較多的方法。


        TIM截圖20180927164953.png


        精靈代理IP平臺專業提供HTTP代理IP服務,有效地解決了爬蟲工作受限制問題,HTTP代理IP的出現,使得爬蟲工作效率更為高效,更為輕松,更為容易,有效地促進了大數據時代的進程和發展。

        相關文章內容簡介
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线