爬虫所需要的代理IP究竟是什么

技术爬虫所需要的代理IP究竟是什么爬虫所需要的代理IP究竟是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。在爬取某些网站时,我们经常会设置代理 IP 来

我相信很多没有经验的人,对于代理IP爬虫需要什么都做不了。因此,本文总结了问题产生的原因及解决方法。希望你能通过这篇文章解决这个问题。

在抓取一些网站的时候,我们经常会设置代理IP,避免阻塞爬虫程序。我们获取代理IP地址的方式通常是从国内知名IP代理(如西慈代理、快递代理、无忧代理等)中提取免费代理。).这些代理通常提供透明代理、匿名代理和匿名代理。那么这些代理之间有什么区别呢?我们应该如何选择?主要内容是解释各种代理IP背后的原理。

00-1010座席类型可分为四种。除了前面提到的透明代理、匿名代理、高度隐藏代理和混淆代理。在安全性方面,这四种代理类型的排名是高模糊性、匿名性和透明性。

00-1010代理类型主要取决于代理服务器的配置。不同的配置导致不同的代理类型。在配置上,这三个变量REMOTE_ADDR,HTTP_VIAHTTP_X_FORWARDED_FOR是决定性因素。

1) REMOTE_ADDR

REMOTE_ADDR指示客户端的IP地址,但是它的值不是由客户端提供的,而是由服务器根据客户端的IP地址指定的。

如果你用浏览器直接访问网站,网络服务器(Nginx,Apache等。)将远程ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标网站的请求将首先通过代理服务器,然后代理服务器将请求转换为目标网站。网站的网络服务器会将远程ADDR设置为代理服务器的IP。

2)X-Forwarded-For(XFF)

x-forward-For是一个HTTP扩展头,用来表示HTTP请求者的真实IP。当客户端使用代理时,网络服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加一个X-forward-For报头信息,并将客户端的IP地址添加到报头信息中。

转发请求报头格式如下:

x-转发-对于:客户端,代理1,代理2

客户端代表客户端的IP地址;Proxy1是距离服务器最远的设备的IP;Proxy2是辅助代理设备的IP;从格式可以看出,从客户端到服务器可以有多层代理。

如果一个HTTP请求在到达服务器之前经过三个代理Proxy1、Proxy2和Proxy3,IP分别为IP1、IP2和IP3,用户的真实IP为IP0,那么按照XFF标准,服务器最终会收到如下信息:

x-转发-针对:IP0、IP1、IP2

代理3直接连接到服务器,它会将IP2附加到XFF,表示它正在转发代理2的请求。列表中没有IP3,可以从服务器上的远程地址字段获取IP3。我们知道HTTP连接是基于TCP连接的,HTTP协议中没有IP的概念。远程地址来自TCP连接,表示与服务器建立TCP连接的设备的IP,在本例中为IP3。

3)HTTP_VIA

Via是HTTP协议中的一个头,它记录了HTTP请求通过的代理和网关。通过一个代理服务器后,增加一个代理服务器的信息,通过两个后,增加两个代理服务器。

1 代理类型

1) 透明代理(Transparent Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=ProxyIP

虽然HTTP_X_FORWARDED_FOR=YourIP透明代理可以直接“隐藏”客户端的IP地址,但它仍然可以从HTTP_X_FORWARDED_FOR中找到客户端的IP地址。

2) 匿名代理(Anonymous Proxy)

代理的配置如下:

远程_ ADDR=代理

HTTP _ VIA=proxyIP

HTTP _ X _ FORWARDED _ FOR=proxyIP

(=NationalBureauofStandards)国家标准局

p;

匿名代理能提供隐藏客户端 IP 地址的功能。使用匿名代理,服务器能知道客户端使用用了代理,当无法知道客户端真实 IP 地址。

3) 混淆代理(Distorting Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address

 

与匿名代理的原理相似,但是会伪装得更逼真。如果客户端使用了混淆代理,服务器还是能知道客户端在使用代理,但是会得到一个假的客户端 IP 地址。

2) 高匿代理(Elite  Proxy 或 High Anonymity Proxy)
代理服务器的配置如下:

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

 

高匿代理既能让服务器不清楚客户端是否在使用代理,也能保证服务器获取不到客户端的真实 IP 地址。

4 代理的选择

普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道客户端的 IP 地址,但仍然可以知道你在使用代理,当然某些能够侦测 IP 的网页仍然可以查到客户端的 IP。

而高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

因此,爬虫程序需要使用到代理 IP 时,尽量选择普通匿名代理和高匿名代理。另外,如果要保证数据不被代理服务器知道,推荐使用 HTTPS 协议的代理。

看完上述内容,你们掌握爬虫所需要的代理IP究竟是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54430.html

(0)

相关推荐

  • web前端实习生面试题有哪些

    技术web前端实习生面试题有哪些这篇文章主要介绍“web前端实习生面试题有哪些”,在日常操作中,相信很多人在web前端实习生面试题有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”web

    攻略 2021年11月18日
  • 盗窃未遂治安拘留有多少天

    技术盗窃未遂治安拘留有多少天 盗窃未遂治安拘留有多少天盗窃是常见的一种违法犯罪行为,实施盗窃活动时,如果因盗窃者以外的原因造成盗窃者未实际占有财物的,就会构成盗窃未遂,情节较轻的,可以不追究刑事责任,但

    礼包 2021年11月1日
  • consumer自带函数式接口(console接口是常用接口吗)

    技术基于Consumer接口、Predicate接口初使用是怎样的这篇文章将为大家详细讲解有关基于Consumer接口、Predicate接口初使用是怎样的,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这

    攻略 2021年12月20日
  • kvm总结(2) : 配置文件和磁盘

    技术kvm总结(2) : 配置文件和磁盘 kvm总结(2) : 配置文件和磁盘KVM是一个专题系列,建议按照顺序阅读这些文章,以便站在前文的基础上去理解,专题链接如下:
    https://www.zsyt

    礼包 2021年11月10日
  • 字母顺序,26个英文字母书写顺序

    技术字母顺序,26个英文字母书写顺序1字母顺序、A B C D 的书写顺序准备好英语练习本子,格式一共有3行(上中下),用黑色的签字笔写出A B C D 。
    大写:A B C D 占上中两格,小写:a

    生活 2021年10月23日
  • 女娲补天翻译,怎样正确理解“万恶淫为首”

    技术女娲补天翻译,怎样正确理解“万恶淫为首”真人真事女娲补天翻译,巳经过去了六年了!农村有买新娘现象,这就是真事,男的巳经三十多岁了,家里正为他 筹备婚事,女是越南妹,由于身份问题,不能 正式登记结婚,农村也我直接摆酒请

    生活 2021年10月22日