800819103
在線客服,實時響應qq群
在線客服,實時響應客服電話
13318873961
在采集數據時,通常有些文章不止一個頁面,如果想獲取分頁的數據,應該怎么獲取呢?下面跟精靈代理一起去了解一下爬蟲怎么獲取分頁數據。
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。
傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
一、爬取對象
選定網站某欄目下的前10頁數據
二、編程思路
尋找分頁地址的變動規律;解析網頁,獲取內容,放入自定義函數中;調用函數,輸出分頁內容。
三、爬蟲怎么獲取分頁數據
1. 首先插入用到的庫:BeautifulSoup、requests
2. 觀察地址的變化規律,可以看到,每切換一頁時,后面“createTimeDesc-1.html”中的數字1會隨著頁面的變動而變動,此時我們將地址存放進列表中,后面用format()和for循環來實現多個地址的存儲。
此時可以先print下,看地址是否正確,這里range(1,11)是前10個頁面的地址。
3. 接下來定義解析函數,參數data的初始值為空。函數內用到的內容和上一篇文章中講到的相同。先請求urls,然后用BeautifulSoup解析,篩選我們想要的項目標題titles的位置,實現輸出。
4. 最后,我們來調用函數。