• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        三個新手學習Python爬蟲簡單案例
        來源:Python_iOS書籍庫 作者:admin 時間:2018-12-04 17:05:35

        學習Python,爬蟲是比較入門的項目,而且現在很多企業都需要用到爬蟲爬取數據,那么如果想學這么語言,怎么快速上手呢?下面精靈代理分享幾個新手學習Python爬蟲簡單案例。


        一、爬取圖片數據

        1.獲取網址的response,分頁內容,解析后提取圖集的地址。

        三個新手學習Python爬蟲簡單案例

        2.獲取網址的response,圖集分頁,解析后提取圖片的下載地址。

        3.下載圖片(也就是獲取二進制內容,然后在本地復刻一份)。


        二、爬取微博數據

        1. 利用chrome瀏覽器,獲取自己的cookie。

        2. 獲取你要爬取的用戶的微博User_id。

        3. 將獲得的兩項內容填入到weibo.py中,替換代碼中的YOUR_USER_ID和#YOUR_COOKIE,運行代碼。

        三個新手學習Python爬蟲簡單案例

        用wordcloud等軟件生成詞云,它會根據信息的頻率、權重按比列顯示關鍵字的字體大小。


        三、爬取王者榮耀全套皮膚

        怎么獲取全套皮膚?用錢買,或者用爬蟲爬取下來~雖然后者不能穿。這個案例稍微復雜一點,但是一個非常值得學習的項目。

        1.首先進入所有英雄列表。

        2.在這個網頁中包含了所有的英雄名稱。點擊其中一個英雄例如“百里守約”。網址中196.shtml以前的字符都是不變的,變化的只是196.shtml。而196是“百里守約”所對應的數字,要想爬取圖片就應該進入每個英雄圖片所在的網址,而網址的關鍵就是對應的數字。

        3.在所有英雄列表中,打開瀏覽器的開發者工具,刷新,找到一個json格式的文件,如圖所示:

        三個新手學習Python爬蟲簡單案例

        4.這時就會看到所有英雄對應的數字了。在上圖所示的Headers中可以找到該json文件對應的網址形式。將其導入Python,把這些數字提取出來,然后模擬出所有英雄的網址即可。

        三個新手學習Python爬蟲簡單案例

        5.下載圖片

        現在可以進入所有英雄的網址并爬取網址下的圖片了。進入一個英雄的網址,打開開發者工具,在NetWork下刷新并找到英雄的皮膚圖片。如圖所示:

        三個新手學習Python爬蟲簡單案例

        6.然后在Headers中查看該圖片的網址。會發現皮膚圖片是有規律的。我們可以用這樣的方式來模擬圖片網址

        在該網址中只有str(v)與str(u)是改變的(str( )是Python中的一個函數),str(v)是英雄對應的數字,str(u)只是圖片編號,例如第一個圖片就是1,第二個就是2,第三個……而一個英雄的皮膚應該不會超過12個(可以將這個值調到20等)。接著就是下載了。

        7.下載代碼

        三個新手學習Python爬蟲簡單案例

        執行完上面的代碼后只需要執行main函數就行了

        上文分享了三個新手學習Python爬蟲簡單案例,對于不同的需求,爬取的方法也有所不同。學習Python,需要不斷的進行實戰,才能學習到更多的知識。在爬取數據中,遇到IP受限問題,可以使用精靈代理更換被封的IP,以突破IP限制,繼續爬取數據。IP限制是非?;A的限制,這是網站設置的反爬蟲機制。除了IP限制,還有其他的限制,比如驗證碼等等,可以根據實際情況調整。


        相關文章內容簡介
        代理IP:網絡世界的隱身大法
        精靈代理-隨著互聯網技術的穩步發展和提升,代理IP這一工具類產品成為了許多互聯網人的必備工具。在當今數字化時代,互聯網已經成為了人們日常生活中不可或缺的一部分。人們通過網絡可以獲取各種信息、進行交流、購物、娛樂等各種活動。然而,隨之而來的是網絡安全和隱私問題,如何在網絡上保護自己的隱私成為了人們關注的焦點。代理IP的使用范圍非常廣泛,在商業領域中,代理IP可以用于數據采集、網絡爬蟲等需要頻繁訪問網站的工作中,通過切換代理IP可以規避網站的反爬蟲機制,提高數據采集的效率。在個人用戶中,代理IP可以用于訪問一些被封鎖的網站、規避地區限制等,讓用戶可以更加自由地訪問互聯網。此外,代理IP還可以用于保護用戶的隱私和安全。在一些公共網絡中,用戶的信息很容易被竊取,通過使用代理IP可以加密用戶的數據傳輸,保護用戶的隱私不被泄露。同時,代理IP還可以防止一些網絡攻擊,如DDoS攻擊等,提升用戶在網絡上的安全性。然而,盡管代理IP在網絡隱私保護方面有著諸多優勢,但也存在一些問題。例如,部分免費代理IP可能存在安全隱患,用戶在使用時需要謹慎選擇。同時,代理IP也可...[閱讀全文]
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线