如何搭建自己的代理ip池,本文详细介绍了相应的分析和解决方案,希望能帮助更多想要解决这个问题的合作伙伴找到更简单、更容易的方法。
今天,本文将构建一个自己的代理ip池。所以为了不出尔反尔,我写了这篇文章,就不多谈了,言归正传。
一个
目标网站
要抓取代理ip,你还需要找到一个网页,这个网页提供这些代理ip。我知道几家免费提供代理ip的网站,如下所示:
无忧代理ip
芝麻代理ip
Xici代理ip
连云代理ip
我选择爬西刺特工的网站。
2
分析网站结构。
我们需要获取高隐藏代理,按F12打开开发者工具。
上面我们需要获取的数据是ip地址、端口和类型。可以看到,这些数据都在一个tr标签中,但是有两个不同的tr标签,这样我们就可以使用正则表达式先匹配整个内容,然后匹配重要信息。最后,只要让他看起来像这样,{'https': 'https://ip:端口'}就可以存储在列表中了。最后,你可以随机获取一个ip,然后你可以判断它是否有用,然后在这个时候用它作为你项目的代理ip,判断是否用的方法就是随便拿一个百度获取别的网站,加上代理ip发送get请求,看看status_code()的返回码是不是200,,就像下面这样。
三
代码部分
1.匹配数据,并挑选数据存入列表
2.随机获取ip,并写好ip格式
我把他放在这里的列表中,现在我正在使用它,因为我目前的爬行动物项目非常小,这就是我所需要的。
以上就是我简单搭建的代理ip池。以后逐渐完善的时候,可以存储在你的数据库里,想用的时候再随机拿出来。先看看是不是没用,没用就删,有用就用。
关于如何建立自己的代理ip池的答案,我希望在这里分享。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54428.html