百度蜘蛛不抓取怎么办(百度蜘蛛状态码)

之前百度站长平台接到某站长求助,表示误封禁了Baiduspider的IP,询问是否有办法获得Baid

之前百度站长平台接到一个站长的求助,说是Baiduspider的IP被误屏蔽了,问有没有办法把Baiduspider的IP全部弄来,打算放在白名单上,保护它不被再次误屏蔽。在这里,百度官方告诉站长们,Baiduspider的IP池在不断变化,我们无法提供一套完整的IP。

另外,站长有个问题,Baiduspider光顾太频繁,超出了服务器的容量。而百度站长平台追踪发现,Baiduspider对网站的抓取是正常的,那只蜘蛛很可能是李鬼。

那么,站长应该如何判断这只蜘蛛是否是通过IP来自百度搜索引擎呢?

这个问题可以通过DNS反向检查来解决。根据不同平台如linux/windows/os的不同验证方式,验证方式如下:

1.在linux平台上,您可以使用host ip命令来反转ip,以确定它是否来自Baiduspider。以* Baiduspider.com或* .baidu.jp格式命名的Baiduspider的主机名,如果不是* . Baiduspider.com或*。假设是Baidu.jp。

2.在windows平台或IBM OS/2平台上,可以使用nslookup ip命令反向ip,判断是否来自Baiduspider。打开命令处理器,输入nslookup xxx.xxx.xxx.xxx(ip地址)解析ip,确定是否来自Baiduspider的抓取。Baiduspider的主机名以* Baidu.com或* Baidu . jp的格式命名,如果不是* Baidu.com或* Baidu . jp,则表示冒名顶替。

3.在mac os平台下,可以使用dig命令去解析ip,判断它是否来自Baiduspider。打开命令处理器,输入dig xxx.xxx.xxx.xxx(ip地址)分析ip,确定是否来自Baiduspider。Baiduspider的主机名以* Baidu.com或* Baidu . jp的格式命名,如果不是* Baidu.com或* Baidu . jp,则表示冒名顶替。

百度蜘蛛识别方法:

事实上,在我们的日志中,很多白蛇都是被别人伪装的。来解决这个问题。我们必须努力验证baiduspider的真实性。本文详细介绍了爬虫的识别方法。

当我们根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,其实很多网站都有伪装成baiduspider的访客。这些数据会严重影响我们对测井分析后的判断。

为什么这些访客伪装成baiduspider访问我们的网站?典型的是那些收集你网站内容的人。他们知道很多工具可以看出哪些ip访问网站太重。例如,一个ip今天访问了你的网站一万次。这正常吗?肯定是不正常的。但如果他是拜杜斯皮尔呢?呵呵,很正常。

我们应该如何说出拜杜斯皮德的真相?

百度pc端的爬虫UA是这样的:

Mozilla/5.0(兼容;baiduspider/2.0;http://www.baidu.com/search/spider.html)

Mozilla/5.0(兼容;baiduspider-render/2.0;http://www.baidu.com/search/spider.html)

一百

度移动端的爬虫UA是这样的:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS x) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

区分百度pc和移动端的爬虫

通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

通过关键词“Baiduspider/2.0”、“Baiduspider-render/2.0”,判断为百度爬虫。

然而,你以为这样就能很好的识别了吗?采集者要是伪装成和上面一样的UA信息怎么办呢?

这个时候我们就要用到ip地址了,每一次访问在日志中都记录了访客的ip地址,我们可以判断ip是不是真的baiduspider,方法如下:

windows电脑反查ip,判断爬虫真伪:

点击“开始”菜单,-> 点击“运行”按钮,-> 然后弹出cmd窗口。输入“nslookup 要查询的ip地址”,点击回车键,会有结果输出出来。判断是否来自Baiduspider的抓取。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式,就说明是真的baiduspider。下面是示例:

如上图中,我执行命令,返回的结果中,最后绿色框中的内容就包含的xx.baidu.com,所以是真的爬虫,如果不是这样的就不是真的baiduspider。

liunx系统反查ip,判断爬虫真伪:

liunx系统验证爬虫的逻辑与windows没有什么区别,只是查询的方式不同。毕竟系统不一样了。这里我直接给一个示例:

如上图,liunx使用的命令是“host 要查询的ip地址”,其判断逻辑与windows系统一样。

好了,今天平哥SEO优化的文章分享到这里。赶紧去拿你的日志看看哪些访客是伪装的爬虫吧,今早把他们屏蔽掉。喜欢本文的记得点赞和转发!

喜欢本文的也喜欢:

如何让网站内容快速被百度蜘蛛抓取收录呢?

网站内容SEO如何做才能让百度蜘蛛快速抓取收录呢?

seo一份蜘蛛日志数据分析秘诀,你值得拥有!

搜索引擎爬虫的三大更新策略都是什么呢?

搜索引擎对网站的惩罚机制到底是什么?

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160594.html

(0)

相关推荐

  • 外链如何快速提高网站排名?

    外链如何快速提高网站排名?做SEO的朋友一定要知道这句话:内容为王,链为王。网站排名靠的是内部链接和外部链接,在本文中,SEO主要想和你讨论一下,如果你做外链,什么样的外链对你的网站排名影响较大?为了获得良好的网站外部链

    攻略 2021年10月23日
  • age动漫的广告,age动漫官方网广告

    age动漫下载,age动漫下载有广告时光动漫正式版正版是一款专门用来看动画片的手机APP。在此推荐最新最热的动漫丰富资源,让用户看了也不担心。我们将可以在旧时代动漫中免费享受到各种有趣的动漫资源。这里的所有内容都是免费的。我们将可以免费享受旧版时光动画中各种有趣的动画资源,不会再观望。age动漫下载有广告介绍1.效率高简易的服务方式,确保让很多顾客可以更为效率高简单的运用,十分的专业。2.多种多样优质的信息库打造,造成了大量的种类各种各样的資源內容。3.完成了更贴心人化的服务方式,你能快速的完成运用。age动漫下载有广告特色完美提供了完整版的追剧体验,是一款不错的趣味手机看番软件。全网动漫影视

    攻略 2022年11月7日
  • 魔兽世界装备介绍(魔兽世界装备p1是什么意思)

    魔兽世界wowwlk即将上线。今天给大家带来游戏 p1品牌设备大全,朋友们不知道什么是P1品牌设备。那么下面就为大家详细介绍一下。 wow魔兽世界p1牌子装备大全 TBC版只有一个...

    2022年7月26日
  • 不爱了知乎(知乎没错就是我)

    特约作者 王汉洋 *本文来自读者投稿 “如果我长期都在做空知乎,那可能会变成商业行为艺术:我和知乎只有一个人能活。」 说这话的人不是知乎的竞争对手——。事实上,知乎在今天的中国互联...

    科技 2021年12月20日
  • 净化手游是韩培吗?

    净化手游是韩配吗三星智能空调Memory系列的好不好三星智能空调Memory系列挺好的,它可以有效的阻止空气中的小颗粒灰尘物质,保持室内洁净空气,其净化功能获得了韩国净化协会CAC认证,而且过滤网也无需更换,水洗保。coway是什么牌子?COWAY是韩国的生活环境家电公司。 自1989年5月2日成立以来,COWAY在韩国水质净化,空气净化和卫浴行业始终占据着领先地位。COWAY秉承为用户提供优质环境科技健。2021全球十大进口净水器排名榜哪位了解行业公认最顶级净化品牌。 曼洛顿净水器连续40年十大品牌排名第一,连续30年高端家电排名第一。 它是奢华、荣耀、贵族的经典代名词、是高端生活的缔造者。

    阅读 2022年6月25日
  • 福利最多的手游盒子游戏2022排行榜,福利最多的手游盒子游戏2022排行榜大全

    : 福利最多的手游盒子游戏2022排行榜 大家都喜欢福利最多的手游盒子游戏,230890.coM福利最多的手游盒子游戏2022排行榜为广大用户带来了2022最新福利最多的手游盒子游...

    阅读 2022年11月7日