百度蜘蛛不抓取怎么办(百度蜘蛛状态码)-柠檬ai自媒体

之前百度站长平台接到一个站长的求助，说是Baiduspider的IP被误屏蔽了，问有没有办法把Baiduspider的IP全部弄来，打算放在白名单上，保护它不被再次误屏蔽。在这里，百度官方告诉站长们，Baiduspider的IP池在不断变化，我们无法提供一套完整的IP。

另外，站长有个问题，Baiduspider光顾太频繁，超出了服务器的容量。而百度站长平台追踪发现，Baiduspider对网站的抓取是正常的，那只蜘蛛很可能是李鬼。

那么，站长应该如何判断这只蜘蛛是否是通过IP来自百度搜索引擎呢？

这个问题可以通过DNS反向检查来解决。根据不同平台如linux/windows/os的不同验证方式，验证方式如下：

1.在linux平台上，您可以使用host ip命令来反转ip，以确定它是否来自Baiduspider。以* Baiduspider.com或* .baidu.jp格式命名的Baiduspider的主机名，如果不是* . Baiduspider.com或*。假设是Baidu.jp。

2.在windows平台或IBM OS/2平台上，可以使用nslookup ip命令反向ip，判断是否来自Baiduspider。打开命令处理器，输入nslookup xxx.xxx.xxx.xxx(ip地址)解析ip，确定是否来自Baiduspider的抓取。Baiduspider的主机名以* Baidu.com或* Baidu . jp的格式命名，如果不是* Baidu.com或* Baidu . jp，则表示冒名顶替。

3.在mac os平台下，可以使用dig命令去解析ip，判断它是否来自Baiduspider。打开命令处理器，输入dig xxx.xxx.xxx.xxx(ip地址)分析ip，确定是否来自Baiduspider。Baiduspider的主机名以* Baidu.com或* Baidu . jp的格式命名，如果不是* Baidu.com或* Baidu . jp，则表示冒名顶替。

百度蜘蛛识别方法：

事实上，在我们的日志中，很多白蛇都是被别人伪装的。来解决这个问题。我们必须努力验证baiduspider的真实性。本文详细介绍了爬虫的识别方法。

当我们根据网站日志分析搜索引擎蜘蛛抓取网页的记录时，其实很多网站都有伪装成baiduspider的访客。这些数据会严重影响我们对测井分析后的判断。

为什么这些访客伪装成baiduspider访问我们的网站？典型的是那些收集你网站内容的人。他们知道很多工具可以看出哪些ip访问网站太重。例如，一个ip今天访问了你的网站一万次。这正常吗？肯定是不正常的。但如果他是拜杜斯皮尔呢？呵呵，很正常。

我们应该如何说出拜杜斯皮德的真相？

百度pc端的爬虫UA是这样的：

Mozilla/5.0(兼容；baiduspider/2.0；http://www.baidu.com/search/spider.html)

Mozilla/5.0(兼容；baiduspider-render/2.0；http://www.baidu.com/search/spider.html)

一百

度移动端的爬虫UA是这样的：

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS x) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如上是包含了百度的常规爬虫，和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

区分百度pc和移动端的爬虫

通过关键词“Android”或者“Mobile”来进行识别，判断为移动访问或者抓取。

通过关键词“Baiduspider/2.0”、“Baiduspider-render/2.0”,判断为百度爬虫。

然而，你以为这样就能很好的识别了吗？采集者要是伪装成和上面一样的UA信息怎么办呢？

这个时候我们就要用到ip地址了，每一次访问在日志中都记录了访客的ip地址，我们可以判断ip是不是真的baiduspider，方法如下：

windows电脑反查ip，判断爬虫真伪：

点击“开始”菜单，-> 点击“运行”按钮，-> 然后弹出cmd窗口。输入“nslookup 要查询的ip地址”，点击回车键，会有结果输出出来。判断是否来自Baiduspider的抓取。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式，就说明是真的baiduspider。下面是示例：

如上图中，我执行命令，返回的结果中，最后绿色框中的内容就包含的xx.baidu.com，所以是真的爬虫，如果不是这样的就不是真的baiduspider。

liunx系统反查ip，判断爬虫真伪：

liunx系统验证爬虫的逻辑与windows没有什么区别，只是查询的方式不同。毕竟系统不一样了。这里我直接给一个示例：

如上图，liunx使用的命令是“host 要查询的ip地址”，其判断逻辑与windows系统一样。

好了，今天平哥SEO优化的文章分享到这里。赶紧去拿你的日志看看哪些访客是伪装的爬虫吧，今早把他们屏蔽掉。喜欢本文的记得点赞和转发！

喜欢本文的也喜欢：

如何让网站内容快速被百度蜘蛛抓取收录呢？

网站内容SEO如何做才能让百度蜘蛛快速抓取收录呢？

seo一份蜘蛛日志数据分析秘诀，你值得拥有！

搜索引擎爬虫的三大更新策略都是什么呢？

搜索引擎对网站的惩罚机制到底是什么？

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/160594.html

百度蜘蛛不抓取怎么办(百度蜘蛛状态码)

相关推荐

梦幻西游手游还是端游赚钱划算，梦幻西游手游还是端游赚钱快

内存包括哪些存储器(内存一般包括什么啊)

校园跑腿商业模式(校园跑腿服务的商业模式)

起点有周边商城吗，起点旗舰店

2021年事业有成(2021年还有事业编吗)

(长津湖水门大桥)百度云资源“bd1024p/1080p/Mp4汉字”云网盘下载