2-1搜索引擎的发展、现状和趋势
发展历史:
第一代:分类目录时代1994年4月,斯坦福大学的两位博士生杨致远和美籍华人David Filo共同创立了雅虎!
第二代:文本检索时代,搜索引擎搜索信息的方法是将用户输入的信息提交给服务器,服务器通过咨询的方式将一些高度相关的信息返回给用户,比如Altavista
第三代:综合分析时代,我们今天网站的外部链接形式基本是一样的。当时外部链接代表推荐的意义,一个网站的受欢迎程度和重要性可以通过每个网站的推荐链接数量来判断。然后,搜索引擎结合网页内容的重要性和相似性,提高用户搜索的信息质量。这种模式的第一个用户是谷歌,它非常成功。
: rgb(255, 255, 255);">
起源:现在的谷歌、百度就是搜索引擎的一种,1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。当时,万维网还没出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务,所以被认为是搜索引擎的鼻祖;
2018年8月,Google全球市场份额为92.12%,高居榜首。百度为第四,市场份额为1.17%;
2018年8月,百度国内市场份额为77.88%,高居榜首。360搜索第二,市场份额为8.18%;
第四代:用户中心时代,当输入同一个查询的请求关键词,在用户的背后可能是不同的查询要求。如输入的是“苹果”,是想找iPhone还是要找水果?甚至是同一个用户,所查的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同,所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。而移动互联网搜索的必然使命,就是提供精准到个人的搜索;
未来畅想:
未来的搜索引擎应该可以回答任何问题,用户在使用搜索引擎的时候,不必先想好先搜什么,后搜什么。用户也不用去学习怎样去搜,而应该像对好朋友问问题,搜索应该更像在对话,更容易,更自然,而不是有一个固定的搜索方式。
和人工智能(AI)结合, AI 能够处理复杂的任务,会分析一系列用户习惯、用户资料、用户行为,根据上下文优化个人推荐和建议,比如地点、时间,个人爱好、需要、瓶颈,从而确保搜索结果匹配的相关性迅速提高。比如你要买房子,它会根据你的财政情况、周边学校要求、娱乐需求、工作喜好等因素把你带到你最理想的房子面前,这样就不用你到处看房了。
第五代:生活生态圈搜索时代,即万物互联的互联网+时代,拥有更广阔的搜索空间,搜索无处不在,比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如你去一个陌生的地方,找厕所,找警察,甚至还有可能东西找你,比如饭煮好了,电饭堡呼叫你等等;
百度,全球最大的中文搜索引擎,2000年1月创立于北京中关村。公司名称来自宋词“众里寻他千百度”,而“熊掌”图标的想法来源于“猎人巡迹熊爪”的刺激,与李彦宏的“分析搜索技术”非常相似,从而构成百度的搜索概念,也最终成为了百度的图标形象。百度从最初的不到10人,于2001年10月22日正式发布Baidu搜索引擎,到2015年有近5万员工,现今中国搜索市场的龙头;
2-2 搜索引擎排名原理和流程
搜索引擎从用户搜索到最终搜索结果展现的步骤是(以百度为例):
抓取,百度都不知道你的网站,如何让你有排名呢?所以要让百度知道你,就要先通过抓取这个步骤;
过滤,过滤掉低质量的页面内容;
索引,只有合格的页面才会被存储;
处理,对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。
排名,将高质量的页面展现给用户;
2-2-1 排名原理之Spider
蜘蛛(Spider):
l被搜索引擎派出能在网上发现新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;l蜘蛛对一个站点的遍历抓取策略分深度优先和广度优先两种。
根据爬取目标和范围,可分为
批量性爬虫:明确的抓取目标和范围,达到即停止;
增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应,通用商业引擎一般都是这类;
垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;
2-2-2 排名原理之抓取
百度官方 spider抓取过程中的策略
1、抓取友好性,同一个站点在一段时间内的抓取频率和一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。
2、常用抓取返回码,如503,404,403,301等;
3、多种url重定向的识别,如http 30x、meta refresh重定向和js重定向,Canonical标签也可看做变相的重定向;
4、抓取优先级调配,如深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、大站优先策略等;
5、重复url的过滤,包括url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法抓取到的数据,如存在于网络数据库中,或由于网络环境、网站本身不符合规范、孤岛等问题而造成的无法被抓取,如百度的“阿拉丁”计划;
7、抓取反作弊,抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等;
spider感兴趣的页面有3类:
1.从未抓取过的新页面。
2.抓取过但内容有改动的页面。
3.抓取过但现在已删除的页面。
蜘蛛不能/不喜欢抓取的内容:
1.被robot屏蔽的页面;
2.图片、视频和flash里的内容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服务器端屏蔽;
5.孤岛页面(无任何导入链接);
6.登录后才能获取的内容;
2-2-3 排名原理之过滤
四种近似重复网页类型:
l1.完全重复页面:在内容和布局格式上毫无区别;
l2.内容重复页面:内容相同,但布局格式不同;
l3.布局重复页面:有部分重要的内容相同,并且布局格式相同;
l4.部分重复页面有部分重要内容相同,但布局格式不同;
低质量的内容页面:
?1.多个URL地址指向同一网页以及镜像站点,如带www和不带www的同时解析到一个网站;
?2.网页内容重复或近似重复,如采集内容,文不对题或垃圾信息;
?没有丰富的内容,如纯图片页面或页面内容搜索引擎识别不了;
过滤-重复文档的处理方式:
ü1.低质量内容予以删除
ü2.高质量重复文档分组并优先展示(重复性高表示受欢迎)
2-2-4 排名原理之索引
l1.用户在查询时所得到的结果并非及时的,是在搜索引擎的缓存区排列好的,当其处理用户查询请求的时候,会将请求按照词库进行分词,将词库中的每一个关键词其对应的URL排名先行计算好,并将其保存在索引数据库中。这就是倒排索引,即用文档的关键词作为索引,文档作为索引目标(类似于普通书籍中,索引是关键词,书的页面是索引目标);
l假若http://seo848.com/custom_3911.html页面被切词成p={p1,p2,p3,……,pn},则其在索引数据库中由右图方式体现(仅供理解,不代表真实)
l索引更新策略:通过完全重建策略,再合并策略,原地更新策略,混合策略等,来不停的更新索引;
处理:
l1.分析用户的搜索意图,看是导航型、信息型还是事物型,好提供精准的搜索结果,假设用户在搜索时可能想不到合适的搜索词,或者关键词输入错误,这时候就需要帮助用户澄清搜索意图(相关搜索、查询纠错)。
l2.提取关键词,代码去噪只留下文字,去除公共区域等非正文的关键词,去除“的”“在”等停用词,再通过分词系统将此文分成一个分词列表储存在数据库中,并与其URL进行一一对应;
l3.内容检索,通过布尔模型、向量空间模型、概率模型、语言模型、机器学习排序等检索模型来计算网页与查询的相关性;
l4.链接分析,通过分析计算获得的得分来评估网页的重要性。
补充小知识:
1.重要信息分析,利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中最重要的词组;?网页重要度分析,通过指向该网页的外链锚文本所传递的权重值为此网页确定一个权重数值,结合”重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。
2-2-6 排名原理之查询/排名
查询服务:
l1.根据查询方式与关键词进行切词。首先先把用户搜索的关键词切分为一个关键词序列,暂时用q来表示,则用户搜索的关键词q被切分为q={q1,q2,q3,……,qn}。然后再根据用户查询方式,例如是所有词连在一起,还是中间有空格等,以及根据q中不同关键词的词性,来确定所需查询词中每一个词在查询结果的展示上所占有的重要性。
l2.搜索结果排序。我们有了搜索词集合q,q中每个关键词所对应的URL排序——索引库,同时也根据用户的查询方式与词性计算出每个关键词在查询结果的展示上所占有的重要,那么只需要进行一点综合性的排序算法,搜索结果就出来了。
l3.将上述的搜索结果与文档摘要展示给用户即可;
通过常见现象猜想百度算法:
1. 在搜索时经常发现百度展示的是用户搜索词周围的,有时候如果词比较长,或者往后多翻几页,会看到有些结果由于其目标页面本身并未完全包含搜索词,而在百度页面中标红词仅是部分搜索词,是不是可以理解为,百度在搜索词不被完全包含的情况下,优先展现在分词结果中被百度认为较为重要的词 有时候页面中会多次出现搜索词,而百度搜索结果页面中仅会显示部分,而且通常是连续的,那是不是可以理解为百度会优先展示页面中它认为与对此搜索词最重要的部分呢?
2-3 BaiduSpider3.0
BaiduSpider3.0对于seo的影响:
l1.抓取、建库更快,所以要缩短优化周期,包括更新、微调、改版等,之前改版要3个月,现在可能1个月就调整好了。
l2.死链处理更及时,在优化时要及时发现死链(包括错误页面、被黑的页面、无内容页面等)并且及时提交到百度站长工具让其及时删除,防止因为死链降权。
l3.注重高质量的原创内容,并给予保护和排名优先展现权,所以我们应该主动去更新高质量原创内容并主动提交。
l4.链接的主动提交,有如下四种方式,可根据自己的情况选择;
在2016年6月份,百度官方公布Spider从2.0升级到了3.0,此次升级是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!?这表明搜索更注重时效性,比如主动提交数据平均被抓取时间早于爬虫发现时间4个小时,被提交的收录也很快,这样页面更新加快,做的好不一定马上有好的排名,但做的差一旦被发现更新会更及时,毕竟要展现给用户高质量的内容,所以对于网站一定不能掉以轻心,因为一旦出问题再恢复就很难;
2-4 常用搜索引擎高级指令
l双引号(英文):搜索词完全匹配,如搜【 “软件” 】则结果必须含软件;
l减号:不包含减号后边的词,前带空格后不带,如【软件 -江苏】;
lInurl:用于搜索查询词出现在url中的页面,如【inurl:baidu】;
Intitle:搜索的页面title中包含关键词,如【intitle:软件】;
Allinurl:页面url中包含多组关键词,如【allinurl:baidu xiashuo】;
Allintitle:页面标题中包含多组关键词,如【allintitle:你好 江苏】;
Filetype:搜索特定的文件格式。如【filetype:pdf seo】是包含seo的pdf文件;
Site/Domain:搜索域名的近似收录和外链,如site:baidu.com;
高级搜索指令可以组合使用,如intitle:软件 inurl:baidu
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/169757.html