今天结束的时候,陈就不跟大家谈这个项目了,而拆这个项目的游戏。今天来说一些关于网站运营的小细节和小问题,可以算是一篇短文,随便拉一下。
首先来说说大多数人在网站运营过程中会遇到的问题,那就是爬虫问题。
任何做过或正在做网站的人都必须知道什么是网站爬虫。网站爬虫是主要搜索引擎的自动化程序。它24小时爬行互联网世界的各种网页。新网站在百度站长平台等各种搜索引擎的站长平台上提交网站域名后,爬虫会在未来几天对你的网站进行抓取。爬虫的抓取频率几乎决定了你网站的收录和排名。新网站前期会有少量的爬虫,只要你坚持稳定长期的更新,爬虫的数量和爬行频率会越来越高。
有时候,一个网站的网页是否被收录是一个全概率问题。只要蜘蛛爬行的频率足够高,你的网站肯定会被收录,而且可以有很好的排名,这就是为什么网站快速排名和蜘蛛池可以提高网站的权重和排名。蜘蛛池也利用这个规则成为很多网站快速做这件事的捷径。可能很多人还不知道什么是蜘蛛池。蜘蛛池简单来说就是很多网站组成一个站群。这些网站用来吸引搜索引擎的爬虫,可以用来对网站进行快速排名。不过还是有一些技术含量的,我做重量站的时候一般都是花钱买开发好的现成速释系统和蜘蛛池。
事实上,蜘蛛池和快拍一直是百度攻击的目标。就连百度也起诉了几家开发快排软件的相关公司。这也反映出百度的技术和算法不足以攻击所有的快拍。毕竟百度搜索造成的算法只是机器算法。这个原则也和淘宝拼多多等电商平台的补货一样。虽然政府严格执行任何商店的声誉,但这个市场不可能消失。大部分平台检查只是机器。虽然淘宝一再降低订单量对店铺权重的影响,但取消订单影响排名的机制是不可能的。所以有时候不完美的技术只是给我们做项目提供了一些便利和捷径。
我们说搜索引擎爬网站的频率越高越好,但也有例外,就是爬网站的无用蜘蛛很多。要知道爬虫会占用网站的带宽和资源,很多垃圾爬虫一天会抓取上百甚至上千个网站链接,浪费了大量的网站资源,甚至会影响网站的打开速度,从而影响网站的收录和排名。
刚操作网站的时候,看到新网站每周都在爬几百个链接。刚开始很兴奋,因为搜索引擎本来就青睐我的网站,而且每天都频繁访问我的网站。最后,我发现那些蜘蛛和爬行动物的名字都错了。百度和搜狗的蜘蛛每天最多抓两天,其他几百只都是没用的垃圾蜘蛛。
目前,应该只有这么多垃圾蜘蛛,而陈的结局就列在这里:
AhrefsBot
表面机器人
UBLEXBot
MJ12bot如果网站有以下蜘蛛建议直接拦截,具体方法是修改机器人协议。明天我会分享一些常用的网站插件,以及如何用最简单的方式修改机器人协议。
作者:陈墨王闯,内容有变化,如有喜欢,请联系作者@陈墨王闯
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160744.html