• <th id="bb20k"></th>
    1. <th id="bb20k"></th>
      1. <th id="bb20k"></th>
        <progress id="bb20k"></progress>

        您的位置:新聞資訊 >文章內容
        爬蟲需要什么類型的代理IP?幾種類型代理IP的區別
        來源:極客猴 作者:admin 時間:2018-11-24 17:53:55

        IP限制常見于大部分的網站平臺,為了限制大量爬蟲。如果爬蟲想要突破IP限制,通常使用代理IP。


        現在可能新手都知道要用代理IP突破限制,但你可能還不知道代理IP也分類型的,那么爬蟲需要什么類型的代理IP?


        爬蟲需要什么類型的代理IP

        我們獲取代理 IP 地址方式通常提取國內的知名 IP 代理商(如西刺代理,快代理,無憂代理等)的免費代理。這些代理商一般都會提供透明代理,匿名代理,高匿代理。那么這幾種代理的區別是什么?我們該如何選擇呢?

        1 代理類型

        代理類型一共能分為四種。除了前面提到的透明代理,匿名代理,高匿代理,還有混淆代理。從安全程度來說,這四種代理類型的排序是 高匿 > 混淆 > 匿名 > 透明。

        2 代理原理

        代理類型主要取決于代理服務器端的配置。不同配置會形成不同的代理類型。在配置中,這三個變量 REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR 是決定性因素。

        1) REMOTE_ADDR
        REMOTE_ADDR 表示客戶端的 IP,但是它的值不是由客戶端提供的,而是服務器根據客戶端的 IP 指定的。

        如果使用瀏覽器直接訪問某個網站,那么網站的 web 服務器(Nginx、Apache等)就會把 REMOTE_ADDR 設為客戶端的 IP 地址。

        如果我們給瀏覽器設置代理,我們訪問目標網站的請求會先經過代理服務器,然后由代理服務器將請求轉化到目標網站。那么網站的 web 服務器就會把 REMOTE_ADDR 設為代理服務器的 IP。

        2)X-Forwarded-For(XFF)
        X-Forwarded-For 是一個 HTTP 擴展頭部,用來表示 HTTP 請求端真實 IP。當客戶端使用了代理時,web 服務器就不知道客戶端的真實 IP 地址。為了避免這個情況,代理服務器通常會增加一個 X-Forwarded-For 的頭信息,把客戶端的 IP 添加到頭信息里面。

        X-Forwarded-For 請求頭格式如下:

        X-Forwarded-For: client, proxy1, proxy2

        client 表示客戶端的 IP 地址;proxy1 是離服務端最遠的設備 IP; proxy2 是次級代理設備的 IP;從格式中,可以看出從 client 到 server 是可以有多層代理的。

        如果一個 HTTP 請求到達服務器之前,經過了三個代理 Proxy1、Proxy2、Proxy3,IP 分別為 IP1、IP2、IP3,用戶真實 IP 為 IP0,那么按照 XFF 標準,服務端最終會收到以下信息:

        X-Forwarded-For: IP0, IP1, IP2

        Proxy3 直連服務器,它會給 XFF 追加 IP2,表示它是在幫 Proxy2 轉發請求。列表中并沒有 IP3,IP3 可以在服務端通過 Remote Address 字段獲得。我們知道 HTTP 連接基于 TCP 連接,HTTP 協議中沒有 IP 的概念,Remote Address 來自 TCP 連接,表示與服務端建立 TCP 連接的設備 IP,在這個例子里就是 IP3。

        3)HTTP_VIA
        via 是 HTTP 協議里面的一個header,記錄了一次 HTTP 請求所經過的代理和網關,經過1個代理服務器,就添加一個代理服務器的信息,經過2個就添加2個。

        3 代理類型區別

        1) 透明代理(Transparent Proxy)
        代理服務器的配置如下:

        REMOTE_ADDR = Proxy IP
        HTTP_VIA = Proxy IP
        HTTP_X_FORWARDED_FOR = Your IP

        透明代理雖然可以直接“隱藏”客戶端的 IP 地址,但是還是可以從HTTP_X_FORWARDED_FOR來查到客戶端的 IP 地址。

        2) 匿名代理(Anonymous Proxy)
        代理服務器的配置如下:

        REMOTE_ADDR = proxy IP
        HTTP_VIA = proxy IP
        HTTP_X_FORWARDED_FOR = proxy IP

        匿名代理能提供隱藏客戶端 IP 地址的功能。使用匿名代理,服務器能知道客戶端使用用了代理,當無法知道客戶端真實 IP 地址。

        3) 混淆代理(Distorting Proxy)
        代理服務器的配置如下:

        REMOTE_ADDR = Proxy IP
        HTTP_VIA = Proxy IP
        HTTP_X_FORWARDED_FOR = Random IP address

        與匿名代理的原理相似,但是會偽裝得更逼真。如果客戶端使用了混淆代理,服務器還是能知道客戶端在使用代理,但是會得到一個假的客戶端 IP 地址。

        2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
        代理服務器的配置如下:

        REMOTE_ADDR = Proxy IP
        HTTP_VIA = not determined
        HTTP_X_FORWARDED_FOR = not determined

        高匿代理既能讓服務器不清楚客戶端是否在使用代理,也能保證服務器獲取不到客戶端的真實 IP 地址。

        4 代理的選擇

        普通匿名代理能隱藏客戶機的真實 IP,但會改變我們的請求信息,服務器端有可能會認為我們使用了代理。不過使用此種代理時,雖然被訪問的網站不能知道客戶端的 IP 地址,但仍然可以知道你在使用代理,當然某些能夠偵測 IP 的網頁仍然可以查到客戶端的 IP。

        而高度匿名代理不改變客戶機的請求,這樣在服務器看來就像有個真正的客戶瀏覽器在訪問它,這時客戶的真實IP是隱藏的,服務器端不會認為我們使用了代理。

        因此,爬蟲程序需要使用到代理 IP 時,盡量選擇普通匿名代理和高匿名代理。另外,如果要保證數據不被代理服務器知道,推薦使用 HTTPS 協議的代理。


        精靈代理所有IP均為高匿,千萬IP池,滿足爬蟲們的需求!支持http、https、socks4、socks5協議!

        相關文章內容簡介
        代理IP:網絡世界的隱身大法
        精靈代理-隨著互聯網技術的穩步發展和提升,代理IP這一工具類產品成為了許多互聯網人的必備工具。在當今數字化時代,互聯網已經成為了人們日常生活中不可或缺的一部分。人們通過網絡可以獲取各種信息、進行交流、購物、娛樂等各種活動。然而,隨之而來的是網絡安全和隱私問題,如何在網絡上保護自己的隱私成為了人們關注的焦點。代理IP的使用范圍非常廣泛,在商業領域中,代理IP可以用于數據采集、網絡爬蟲等需要頻繁訪問網站的工作中,通過切換代理IP可以規避網站的反爬蟲機制,提高數據采集的效率。在個人用戶中,代理IP可以用于訪問一些被封鎖的網站、規避地區限制等,讓用戶可以更加自由地訪問互聯網。此外,代理IP還可以用于保護用戶的隱私和安全。在一些公共網絡中,用戶的信息很容易被竊取,通過使用代理IP可以加密用戶的數據傳輸,保護用戶的隱私不被泄露。同時,代理IP還可以防止一些網絡攻擊,如DDoS攻擊等,提升用戶在網絡上的安全性。然而,盡管代理IP在網絡隱私保護方面有著諸多優勢,但也存在一些問題。例如,部分免費代理IP可能存在安全隱患,用戶在使用時需要謹慎選擇。同時,代理IP也可...[閱讀全文]
        在線咨詢
        微信公眾號

        微信公眾號

        回到頂部
        国产欧美 一区,国产一本大道香蕉AV,国产亚洲卡通另类图片,国产高清AV在线