相信很多没有经验的人,对于如何用Python爬高价值美女,都是一窍不通的。因此,本文总结了出现问题的原因和解决方法,希望大家可以通过这篇文章来解决这个问题。
1个数据源
知乎“美”主题下所有问题的答案图片。
2抓取工具。
Python 3,并使用第三方库Requests、lxml、AipFace,总共有100行代码。
3必要的环境。
Mac/Linux/Windows (Linux还没有测试过,理论上是可以的。Windows之前反应异常,但检查后,Windows限制了本地文件名中的字符,并使用了常规过滤)。
无需登录知乎(即无需提供知乎账号密码)。
人脸检测服务需要一个百度云账号(即百度网盘/贴吧账号)。
4人脸检测库。
AipFace由百度云AI开放平台提供,是一款用于人脸检测的Python SDK。可以通过HTTP直接访问,免费使用。
5测试过滤器条件。
过滤所有无脸图片(如风景、无脸人物照片等)。).
过滤所有非女性(抓取过程中发现知乎男性图片基本都是明星,所以不考虑;存在AipFace性别识别不准确的情况)
过滤所有不真实的角色,如卡通人物(AipFace Human confidence小于0.6)。
过滤所有低颜值分数的图片(AipFace美颜属性小于45,以节省存储空间;同样,AipFace评分没有客观性。)
6实现逻辑。
通过Requests发送一个HTTP请求,获取一些“美”下的讨论列表。
通过lxml分析每个讨论中捕获的HTML,获取所有img标签对应的src属性。
通过Requests发送HTTP请求,下载src属性指向图片(不考虑动画)。
通过AipFace要求图片上的人脸检测。
判断是否检测到人脸,使用“4个检测过滤条件”进行过滤。
将过滤后的图片持久化到本地文件系统,文件名为颜值作者题名序号。
回到第一步继续。
7抢成绩。
直接储存在文件夹里(angelababy的实力出境)。除此之外,88分是除了baby之外拍摄图片的最高分。个人反对排名,但我老婆不是最高分。
密码
9操作准备。
安装Python 3,下载Python。
安装请求、lxml和baidu-aip库,所有这些都可以通过pip安装,只需一行命令。
申请百度云检服务,免费。人脸识别-百度AI。
看完以上内容,你掌握了用Python爬取高价值美颜的方法了吗?如果您想学习更多技能或了解更多相关内容,请关注行业资讯频道。感谢阅读!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/49008.html