• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        淺談爬蟲與反爬蟲的一些技術
        來源:本站 作者:jinglingdaili 時間:2019-02-18 18:21:53

        現如今因為搜索引擎的流行,網絡爬蟲已經成了很普及網絡技術了,除了專門做搜索的Google,Yahoo,微軟,百度以外,幾乎每個大型門戶網站都會有做自己的搜索引擎,有叫得出來名字得就幾十種,就更不用說還有各種不知名的小小的爬蟲了。對于一個內容型驅動的網站來說,受到網絡爬蟲的光顧是不可避免的。


        淺談爬蟲與反爬蟲的一些技術


        一些智能的搜索引擎爬蟲的爬取頻率比較合理,對網站資源消耗比較少,但是很多糟糕的網絡爬蟲,對網頁爬取能力很差,經常并發幾十上百個請求循環重復抓取,這種爬蟲對中小型網站往往是毀滅性的打擊,特別是一些缺乏爬蟲編寫經驗的程序員寫出來的爬蟲破壞力極強,造成的網站訪問壓力會非常大,會導致網站訪問速度緩慢,甚至有可能無法訪問。


        現在的網站一般會從三個方面來反爬蟲:用戶請求的Headers,用戶行為,網站目錄和數據加載方式.前兩種是比較容易遇到的,所以大多數網站都從這些角度來反爬蟲。第三種會有一些應用ajax的網站會采用,這樣就增大了爬取的難度,減少了初級爬蟲的爬取麻煩,同時也不會阻止到一些搜索引擎的爬取。


        通過Headers反爬蟲:從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復制到爬蟲的Headers中;或者將Referer值修改為目標網站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。

        相關文章內容簡介
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线