爬虫所需要的代理IP究竟是什么

技术爬虫所需要的代理IP究竟是什么爬虫所需要的代理IP究竟是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。在爬取某些网站时,我们经常会设置代理 IP 来

我相信很多没有经验的人,对于代理IP爬虫需要什么都做不了。因此,本文总结了问题产生的原因及解决方法。希望你能通过这篇文章解决这个问题。

在抓取一些网站的时候,我们经常会设置代理IP,避免阻塞爬虫程序。我们获取代理IP地址的方式通常是从国内知名IP代理(如西慈代理、快递代理、无忧代理等)中提取免费代理。).这些代理通常提供透明代理、匿名代理和匿名代理。那么这些代理之间有什么区别呢?我们应该如何选择?主要内容是解释各种代理IP背后的原理。

00-1010座席类型可分为四种。除了前面提到的透明代理、匿名代理、高度隐藏代理和混淆代理。在安全性方面,这四种代理类型的排名是高模糊性、匿名性和透明性。

00-1010代理类型主要取决于代理服务器的配置。不同的配置导致不同的代理类型。在配置上,这三个变量REMOTE_ADDR,HTTP_VIAHTTP_X_FORWARDED_FOR是决定性因素。

1) REMOTE_ADDR

REMOTE_ADDR指示客户端的IP地址,但是它的值不是由客户端提供的,而是由服务器根据客户端的IP地址指定的。

如果你用浏览器直接访问网站,网络服务器(Nginx,Apache等。)将远程ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标网站的请求将首先通过代理服务器,然后代理服务器将请求转换为目标网站。网站的网络服务器会将远程ADDR设置为代理服务器的IP。

2)X-Forwarded-For(XFF)

x-forward-For是一个HTTP扩展头,用来表示HTTP请求者的真实IP。当客户端使用代理时,网络服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加一个X-forward-For报头信息,并将客户端的IP地址添加到报头信息中。

转发请求报头格式如下:

x-转发-对于:客户端,代理1,代理2

客户端代表客户端的IP地址;Proxy1是距离服务器最远的设备的IP;Proxy2是辅助代理设备的IP;从格式可以看出,从客户端到服务器可以有多层代理。

如果一个HTTP请求在到达服务器之前经过三个代理Proxy1、Proxy2和Proxy3,IP分别为IP1、IP2和IP3,用户的真实IP为IP0,那么按照XFF标准,服务器最终会收到如下信息:

x-转发-针对:IP0、IP1、IP2

代理3直接连接到服务器,它会将IP2附加到XFF,表示它正在转发代理2的请求。列表中没有IP3,可以从服务器上的远程地址字段获取IP3。我们知道HTTP连接是基于TCP连接的,HTTP协议中没有IP的概念。远程地址来自TCP连接,表示与服务器建立TCP连接的设备的IP,在本例中为IP3。

3)HTTP_VIA

Via是HTTP协议中的一个头,它记录了HTTP请求通过的代理和网关。通过一个代理服务器后,增加一个代理服务器的信息,通过两个后,增加两个代理服务器。

1 代理类型

1) 透明代理(Transparent Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=ProxyIP

虽然HTTP_X_FORWARDED_FOR=YourIP透明代理可以直接“隐藏”客户端的IP地址,但它仍然可以从HTTP_X_FORWARDED_FOR中找到客户端的IP地址。

2) 匿名代理(Anonymous Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=proxyIP

HTTP _ X _ FORWARDED _ FOR=proxyIP

(=NationalBureauofStandards)国家标准局

p;

匿名代理能提供隐藏客户端 IP 地址的功能。使用匿名代理,服务器能知道客户端使用用了代理,当无法知道客户端真实 IP 地址。

3) 混淆代理(Distorting Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address

 

与匿名代理的原理相似,但是会伪装得更逼真。如果客户端使用了混淆代理,服务器还是能知道客户端在使用代理,但是会得到一个假的客户端 IP 地址。

2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

 

高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实 IP 地址。

4 代理的选择

普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道客户端的 IP 地址,但仍然可以知道你在使用代理,当然某些能够侦测 IP 的网页仍然可以查到客户端的 IP。

而高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

因此,爬虫程序需要使用到代理 IP 时,尽量选择普通匿名代理和高匿名代理。另外,如果要保证数据不被代理服务器知道,推荐使用 HTTPS 协议的代理。

看完上述内容,你们掌握爬虫所需要的代理IP究竟是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54430.html

(0)

相关推荐

  • 抽象工厂

    技术抽象工厂 抽象工厂抽象工厂(Abstract Factory)
    Intent
    提供一个接口,用于创建相关的对象家族
    Class Diagram
    抽象工厂模式创建的是对象家族,也就是很多对象而不是一个

    礼包 2021年11月10日
  • 月亮思乡的古诗,关于月亮思乡的古诗大全

    技术月亮思乡的古诗,关于月亮思乡的古诗大全【古朗月行】李白小时不识月,呼作白玉盘.又疑瑶台镜,飞在白云端.仙人垂两足,桂树作团团.白兔捣药成,问言与谁餐.
    蟾蜍蚀圆影,大明夜已残.羿昔落九乌,天人清且安.
    阴精此沦惑,去

    生活 2021年10月22日
  • Visual Studio 2010 RC两个错误问题的解决方法

    技术Visual Studio 2010 RC两个错误问题的解决方法Visual Studio 2010 RC两个错误问题的解决方法,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小

    攻略 2021年10月28日
  • Android中如何设置TextView渐变颜色和方向及动画效果

    技术Android中如何设置TextView渐变颜色和方向及动画效果这篇文章主要介绍Android中如何设置TextView渐变颜色和方向及动画效果,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!添

    攻略 2021年11月6日
  • 第一次使用Swagger出现空指针异常

    技术第一次使用Swagger出现空指针异常 第一次使用Swagger出现空指针异常问题
    在第一次使用swagger时出现java.lang.NullPointerException。
    完整的错误信息如下

    礼包 2021年11月27日
  • 如何进行MySQL表结构的导入和导出

    技术如何进行MySQL表结构的导入和导出本篇文章给大家分享的是有关如何进行MySQL表结构的导入和导出,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。MySQ

    攻略 2021年10月25日