• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        互聯網50%的流量來源于爬蟲,爬蟲喜歡爬哪些網站?
        來源:互聯網 作者:admin 時間:2018-12-29 17:50:07

          都說互聯網上超過50%的流量是爬蟲產生的,可見爬蟲的數量之多,也許你看到熱門的文章中,如此高的流量,大部分都是爬蟲貢獻的噢。那么爬蟲喜歡爬哪些網站呢?今天跟精靈代理一起去了解一下爬蟲喜歡爬哪些網站,爬取這些網站的信息到底有什么用呢?


          爬蟲就是一個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,點點按鈕,查查數據,或者把看到的信息背回來。就像一只蟲子在一幢樓里不知疲倦地爬來爬去。你可以簡單地想象:每個爬蟲都是你的“分身”。舉個例子,我們每天使用的百度,其實就是利用了這種爬蟲技術:每天放出無數爬蟲到各個網站,把他們的信息抓回來,然后化好淡妝排著小隊等你來檢索。搶票軟件,就相當于撒出去無數個分身,每一個分身都幫助不斷刷新12306網站的火車余票。一旦發現有票,就馬上拍下來。


          就在我們生活中的互聯網上,早已密密麻麻爬滿各種網絡爬蟲,它們善惡不一樣,各懷心思。而越是每個人切身利益所在的地方,就越是爬滿網絡爬蟲。


          爬蟲也分善惡。像Google這樣的搜索引擎網絡爬蟲,每隔幾日對全網的網頁掃一遍,供我們查看,每個被掃的網站大多數很高興。這類就被定義為“善意爬蟲”??墒?,像搶票軟件那樣的網絡爬蟲,對著12306每秒恨不能刷幾萬次。


        互聯網50%的流量來源于爬蟲,爬蟲喜歡爬哪些網站?


          這張圖上顯示的,就是各個領域被爬“叨擾”的占比。(特別注意,這張圖顯示是全世界,不是全中國。)而每一個色塊背后,都是一條真實而強大的利益鏈條。排名的是出行,出行行業中網絡爬蟲的占比最多(20.87%)。在出行的網絡爬蟲中,有89.02%的流量都是沖著12306去的。這不意外,全中國賣火車票的獨此一家別無分號。你是否還記得當年12306上線王珞丹和白百何的“史上最坑圖片驗證碼”么?


          這些東西并不是為了有意難為購票的人,而恰恰是為了防止網絡爬蟲(也就是說搶票軟件)的點擊。剛剛講過,網絡爬蟲只會簡單的機械點擊,它不認得白百何,所以很大一部分網絡爬蟲就被擋在了門外。


          為什么12306這么摳呢?它大方地讓爬蟲隨意爬會死嗎?答:會死。你知道每年過年之前,12306被點成什么樣了嗎?公開數據是這么說的:“最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次?!边@還是加上驗證碼防護之后的數據??上攵粩r截在外面的爬蟲還有多少。


          社交領域的爬蟲高發區就是微博。它可以用來獲取某個人的微博列表、微博的狀態、索引等,或者利用網絡爬蟲操作,營造出有很多粉絲的氣氛,吸引廣告商來發布廣告,獲得金錢。


          網絡爬蟲最喜歡扒的還有電商。有一些“比價平臺”、“返利平臺”、“聚合電商”,它們都是一個原理:搜索某樣商品,這些聚合平臺就會自動把各個電商平臺的商品都檢索出來供客戶選擇。這就是網絡爬蟲的貢獻。這個原理和Google差不多,只不過展示的不是網頁而是商品。但是被放在一起比價,是各大電商平臺所不樂意見到的。


          爬蟲喜歡爬哪些網站?上文介紹了一些爬蟲重災區。由于爬蟲進行大規模的爬取是需要成本的,比如花錢購買代理IP,突破訪問次數的限制;如果沒有價值的信息,就很多爬蟲去爬取,或許就只有搜索引擎去看看了。


        相關文章內容簡介
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线