800819103
在線客服,實時響應qq群
在線客服,實時響應客服電話
13318873961
人工下載圖片非常慢,可以寫爬蟲直接爬取大量的圖片,那么爬蟲怎么爬取圖片?大量爬取圖片需要注意什么呢?下面跟精靈代理一起去了解一下爬蟲怎么爬取圖片。
首先讓我們來創建一個名為download.py的模塊。這個文件包含所有抓取和下載所需圖片的函數。我們將全部功能分割成如下三個函數:
get_links
download_link
setup_download_dir
第三個函數,setup_download_dir將會創建一個存放下載的圖片的目錄,如果這個目錄不存在的話。
我們首先結合requests和beautifulsoup4解析出網頁中的全部圖片鏈接。下載圖片的任務非常簡單,只要通過圖片的URL抓取圖片并寫入文件即可。
代碼看起來像這樣:
接下來我們寫一個使用這些函數一張張下載圖片的模塊。我們把它命名為single.py。我們的第一個簡單版本的圖片下載器將包含一個主函數。它會調用setup_download_dir創建下載目錄。然后,它會使用get_links方法抓取一系列圖片的鏈接,由于單個網頁的圖片較少,這里抓取了5個網頁的圖片鏈接并把它們組合成一個列表。最后調用download_link方法將全部圖片寫入磁盤。這是single.py的代碼:
在我的筆記本上,這段腳本花費了166秒下載253張圖片。請注意花費的時間因網絡的不同會有所差異。166秒不算太長。
上文介紹了爬蟲怎么爬取圖片的方法,但如果我們要下載更多的圖片呢?2530張而不是253張。平均下載一張圖片花費約1.5秒,那么2530張圖片將花費約28分鐘。25300張圖片將要280分鐘。
其實除了上面的爬取方法,還可以通過使用并發和并行技術,其將顯著提升下載速度。
提醒:在爬取的過程中,需要用到代理突破IP限制,提高爬取速度。因此,爬蟲需要一個IP池,建立IP池,可以提取免費IP,或者到精靈代理提取。