• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        Python爬蟲怎么獲取分頁數據
        來源:互聯網 作者:admin 時間:2018-11-27 14:14:45

            在采集數據時,通常有些文章不止一個頁面,如果想獲取分頁的數據,應該怎么獲取呢?下面跟精靈代理一起去了解一下爬蟲怎么獲取分頁數據。


            網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。


            傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。


            一、爬取對象


            選定網站某欄目下的前10頁數據


            二、編程思路


            尋找分頁地址的變動規律;解析網頁,獲取內容,放入自定義函數中;調用函數,輸出分頁內容。


            三、爬蟲怎么獲取分頁數據


            1. 首先插入用到的庫:BeautifulSoup、requests


            2. 觀察地址的變化規律,可以看到,每切換一頁時,后面“createTimeDesc-1.html”中的數字1會隨著頁面的變動而變動,此時我們將地址存放進列表中,后面用format()和for循環來實現多個地址的存儲。


            此時可以先print下,看地址是否正確,這里range(1,11)是前10個頁面的地址。


        爬蟲怎么獲取分頁數據


            3. 接下來定義解析函數,參數data的初始值為空。函數內用到的內容和上一篇文章中講到的相同。先請求urls,然后用BeautifulSoup解析,篩選我們想要的項目標題titles的位置,實現輸出。


            4. 最后,我們來調用函數。


        相關文章內容簡介
        探討動態代理ip的作用
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线