代理IP的匿名度是如何划分的?


在使用网络爬虫爬取数据时,用户经常会使用代理IP来保护安全访问自身真实IP地址,避免爬虫程序无法访问公开数据。不过代理IP实际上也不是一概而论的,不同的代理IP也有匿名度之分,接下来就一起来了解一下代理IP的匿名度是如何划分的:


image.png


代理类型


代理IP根据匿名性来划分一共能分为三种:透明代理、普通匿名代理、高匿代理。从安全程度来说,这三种代理类型的排序是高匿>普通匿名>透明。


代理原理


代理类型主要取决于代理服务器端的配置。不同配置会形成不同的代理类型。在配置中,这三个变量REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR是决定性因素:


1. REMOTE_ADDR


REMOTE_ADDR 表示客户端的 IP,但是它的值不是由客户端提供的,而是服务器根据客户端的IP指定的。


如果使用浏览器直接访问某个网站,那么网站的web服务器(Nginx、Apache等)就会把REMOTE_ADDR设为客户端的 IP 地址。


如果用户给浏览器设置代理,用户访问全球网站公开数据的请求会先经过代理服务器,然后由代理服务器将请求转化到目标网站。那么网站的web服务器就会把 REMOTE_ADDR 设为代理服务器的 IP。


2.X-Forwarded-For(XFF)


X-Forwarded-For是一个HTTP扩展标头,用来表示HTTP请求端真实IP。当客户端使用了代理时,web服务器就无法获知客户端的真实IP地址。为了避免这个情况,代理服务器通常会增加一个X-Forwarded-For的标头信息,把客户端的IP添加到标头信息里面。


3.HTTP_VIA


via是HTTP协议里面的一个header,记录了一次HTTP请求所经过的代理和网关,经过1个代理服务器,就添加一个代理服务器的信息,经过2个就添加2个。


代理类型区别


1.透明代理(Transparent Proxy)


透明代理虽然可以直接“保护安全访问”客户端的 IP 地址,但是还是可以从来源查到客户端的 IP地址。


2.普通匿名代理(Anonymous Proxy)


普通匿名代理能提供保护安全访问客户端IP地址的功能,但当用户使用普通匿名代理时,服务器就能知道客户端使用代理的行为。


3.高匿代理(Elite Proxy或High Anonymity Proxy)


高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实IP地址。


IPIDEA已向众多互联网知名企业提供服务,对提高爬虫的抓取效率提供帮助,支持API防止账号关联使用,支持多线程高并发使用。欢迎访问www.ipidea.net 


声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。

上一篇:Python语言五大优点盘点 Python爬虫代理介绍

下一篇:代理IP常见的六大作用