爬虫所需要的代理IP究竟是什么

技术爬虫所需要的代理IP究竟是什么爬虫所需要的代理IP究竟是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。在爬取某些网站时,我们经常会设置代理 IP 来

我相信很多没有经验的人,对于代理IP爬虫需要什么都做不了。因此,本文总结了问题产生的原因及解决方法。希望你能通过这篇文章解决这个问题。

在抓取一些网站的时候,我们经常会设置代理IP,避免阻塞爬虫程序。我们获取代理IP地址的方式通常是从国内知名IP代理(如西慈代理、快递代理、无忧代理等)中提取免费代理。).这些代理通常提供透明代理、匿名代理和匿名代理。那么这些代理之间有什么区别呢?我们应该如何选择?主要内容是解释各种代理IP背后的原理。

00-1010座席类型可分为四种。除了前面提到的透明代理、匿名代理、高度隐藏代理和混淆代理。在安全性方面,这四种代理类型的排名是高模糊性、匿名性和透明性。

00-1010代理类型主要取决于代理服务器的配置。不同的配置导致不同的代理类型。在配置上,这三个变量REMOTE_ADDR,HTTP_VIAHTTP_X_FORWARDED_FOR是决定性因素。

1) REMOTE_ADDR

REMOTE_ADDR指示客户端的IP地址,但是它的值不是由客户端提供的,而是由服务器根据客户端的IP地址指定的。

如果你用浏览器直接访问网站,网络服务器(Nginx,Apache等。)将远程ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标网站的请求将首先通过代理服务器,然后代理服务器将请求转换为目标网站。网站的网络服务器会将远程ADDR设置为代理服务器的IP。

2)X-Forwarded-For(XFF)

x-forward-For是一个HTTP扩展头,用来表示HTTP请求者的真实IP。当客户端使用代理时,网络服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加一个X-forward-For报头信息,并将客户端的IP地址添加到报头信息中。

转发请求报头格式如下:

x-转发-对于:客户端,代理1,代理2

客户端代表客户端的IP地址;Proxy1是距离服务器最远的设备的IP;Proxy2是辅助代理设备的IP;从格式可以看出,从客户端到服务器可以有多层代理。

如果一个HTTP请求在到达服务器之前经过三个代理Proxy1、Proxy2和Proxy3,IP分别为IP1、IP2和IP3,用户的真实IP为IP0,那么按照XFF标准,服务器最终会收到如下信息:

x-转发-针对:IP0、IP1、IP2

代理3直接连接到服务器,它会将IP2附加到XFF,表示它正在转发代理2的请求。列表中没有IP3,可以从服务器上的远程地址字段获取IP3。我们知道HTTP连接是基于TCP连接的,HTTP协议中没有IP的概念。远程地址来自TCP连接,表示与服务器建立TCP连接的设备的IP,在本例中为IP3。

3)HTTP_VIA

Via是HTTP协议中的一个头,它记录了HTTP请求通过的代理和网关。通过一个代理服务器后,增加一个代理服务器的信息,通过两个后,增加两个代理服务器。

1 代理类型

1) 透明代理(Transparent Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=ProxyIP

虽然HTTP_X_FORWARDED_FOR=YourIP透明代理可以直接“隐藏”客户端的IP地址,但它仍然可以从HTTP_X_FORWARDED_FOR中找到客户端的IP地址。

2) 匿名代理(Anonymous Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=proxyIP

HTTP _ X _ FORWARDED _ FOR=proxyIP

(=NationalBureauofStandards)国家标准局

p;

匿名代理能提供隐藏客户端 IP 地址的功能。使用匿名代理,服务器能知道客户端使用用了代理,当无法知道客户端真实 IP 地址。

3) 混淆代理(Distorting Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address

 

与匿名代理的原理相似,但是会伪装得更逼真。如果客户端使用了混淆代理,服务器还是能知道客户端在使用代理,但是会得到一个假的客户端 IP 地址。

2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

 

高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实 IP 地址。

4 代理的选择

普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道客户端的 IP 地址,但仍然可以知道你在使用代理,当然某些能够侦测 IP 的网页仍然可以查到客户端的 IP。

而高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

因此,爬虫程序需要使用到代理 IP 时,尽量选择普通匿名代理和高匿名代理。另外,如果要保证数据不被代理服务器知道,推荐使用 HTTPS 协议的代理。

看完上述内容,你们掌握爬虫所需要的代理IP究竟是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54430.html

(0)

相关推荐

  • python web开发基础教程(django)版pdf(django项目开发实战)

    技术Django1.9如何开发web项目这篇文章主要介绍“Django1.9如何开发web项目”,在日常操作中,相信很多人在Django1.9如何开发web项目问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法

    攻略 2021年12月23日
  • 青菜炒鸡蛋的做法,菠菜炒鸡蛋的制作方法是什么

    技术青菜炒鸡蛋的做法,菠菜炒鸡蛋的制作方法是什么菠菜炒鸡蛋是一道地道的家常菜。但是要想做得好吃青菜炒鸡蛋的做法,也不是像辣椒炒鸡蛋那样简单混合一炒就好的。菠菜炒鸡蛋的家常做法:1、菠菜摘去黄叶洗净。
    2、坐锅烧水,水开放

    生活 2021年10月27日
  • VC++ win7下怎么实现WIFI共享工具

    技术VC++ win7下怎么实现WIFI共享工具这篇文章主要讲解了“ VC++ win7下怎么实现WIFI共享工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“ VC++

    攻略 2021年11月30日
  • 树莓派如何控制温湿度传感器DHT11

    技术树莓派如何控制温湿度传感器DHT11树莓派如何控制温湿度传感器DHT11,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。小π因为好几次断电之前没有关掉

    攻略 2021年11月19日
  • html中em是什么单位(em值是什么意思)

    技术css3中em指的是什么单位小编给大家分享一下css3中em指的是什么单位,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧! 在css3中,em是一个相对长度单位,相对于当前

    攻略 2021年12月19日
  • 如何了解Tomcat小版本差异

    技术如何了解Tomcat小版本差异这期内容当中小编将会给大家带来有关如何了解Tomcat小版本差异,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。事情从这儿说起,项目里调试的时候,一个同

    攻略 2021年12月8日