这几天,有不少朋友留言,问了一些关于爬虫课的问题。
本来我打算,今天这篇文章,把所有问题,统一回答一下。
但写着写着,发现问题太多了,一下写不完。而且有的问题,比较复杂。
那就拆开来写,今天写看一个问题 ——
爬虫课可以抓 XX 吗?
能抓小红书吗?
-
能抓抖音吗?
-
能抓今日头条吗?
-
能抓到副业赚钱信息吗?
-
……
可能大家觉得,这是一个简单问题,答案会是一个确定的「是」,或者「否」。
但其实,这是一个复杂问题,答案取决于很多因素 ——
因为用爬虫抓取某个网站,会消耗网站的流量成本。所以,有些网站会设置一些反爬虫机制,一旦检测到我们在使用爬虫,就会让你遇到「意外」,比如 ——隔一会,就需要输入验证码,才能继续
-
数据显示不限
-
数据显示乱码
-
限制登录
-
封掉账号
-
……
因为设置反爬虫,也需要成本。所以,除了一些大网站,其他绝大多数网站,都没有反爬虫。
那,这是不是就代表:绝大多数网站,都是可以抓取的?
比如,一个正常的网站,我技术比较熟练,就更可能抓成功。
一个刚买了课,听了一遍,但没练习过的人,肯定抓不了。
一个买了课,听了 3 遍,练习了 5 次的人,就更可能抓成功。
所以,从这个角度上看,「能不能抓 XX 网站」,结果取决于你,而不是我。
买完课程,只是看一遍,但不多练习,肯定是抓不了任何网站的。
总体来说,如果你要抓取的信息,在电脑网页上,能用眼睛看到,它就大概率能抓到。
比如,你要抓知乎一个作者,张三的文章信息,包括每篇文章的标题、链接、评论数、点赞数。
而这个文章页面,也能「用眼睛」看到这个几个信息 ——
-
我想抓同行的电话号码。
-
我想抓客户微信号。
-
我想抓房东电话。
那有同学会问:我要去哪个网页上看,有没有这些信息啊?
有反爬虫,只能说明,抓取比较困难,或者不能完全自动化,但可以半自动化,或者 60% 、70% 自动化。反正,肯定比手动,要提高 10 几倍效率吧。
今天先介绍这些,大家有问题,可以留言,我改天再写一篇文章。
都看到这里了,你不关注一下嘛??????,我每天都更新哇,不更不是人!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/158937.html