最近一直在做搜索引擎相关的工作,但是只涉及到一个环节,有时候难免有舍本逐末的感觉。于是这两天整理了一些资料,写了一篇搜索简史hhh作为学习记录。说到简史,字面意思是简史,但其实简史更多的是指一个事物发展的逻辑史。《搜索引擎简史》的发展逻辑是什么?更全、更快、更准地返回用户想要的结果。可以分为以下几个阶段。自从互联网在
一、分类目录时代,诞生以来,内容越来越多,搜索引擎的出现是必然的,但最初它是以分类目录的形式出现的。雅虎和国内的hao123就是这个时代的代表,主要通过人工采集网站的方式对外提供检索服务。1994年,雅虎决定包括所有互联网网页,——通过纯手工的方式。,.
今天听起来很不可思议,但那是1994年,整个互联网还不到一万页(我刚出生。
一本厚点的书足够收录整个互联网的信息。
但到1995年,互联网一下增加了10倍,到了10万个网页,手工收录有点吃不消了。
随着互联网内容的增多,不少搜索引擎都通过网络爬虫的方式,自动爬取并索引网页信息,这期间涌现出了非常多的搜索引擎,比如AltaVista,Excited等。检索算法也是经典的信息检索模型,主要通过算法模型确定关键词和网页本内容的相关程度,但整体效果不是很好。
这期间以Google为代表,搜索引擎对结果排序时,除了文本相关性外,还根据网页间的链接分析,对网页的重要程度进行量化,也就是著名的PageRank算法。
但PageRank并不是第一个基于链接分析网页排序算法,而是受RankDex搜索引擎的启发,这个在pageRank的专利里面也有提到。
而RankDex是李彦宏早期在InfoSeek公司做工程师时发明的,两年后才有PageRank。可以说李彦宏是现代搜索引擎排序算法之父!没有他可能现在搜索引擎还是基于文本内容排序。
RankDex和PageRank的区别在于,RankDex认为所有入链接的权重都是一样的,而PageRank则认为不同入链的权重是不一样的。分别由阿里和一个不知名的网站指向的网页,前者的网页质量大概率会高些。
听起来还是个很容易想到的优化啊,确实。李彦宏在infoSeek没干多久,就回国创建百度了,专心搞中文的搜索引擎,于是RankDex后面也没有了进一步的发展,Google却从此一飞冲天。
对于同一个关键字,不同用户想要的结果可能是不一样的。有的人搜“苹果”,是想买新版的苹果手机,而有的人可能真的是想帮助苹果滞销的农民伯伯。前两天群里也聊到一个很有意思的搜索结果。
所以这个阶段,搜索引擎会根据用户画像、周围环境、NLP技术等多个维度,综合判断用户的查询关键字的真正需求,返回更准确的结果。
搜索引擎的本质检索并返回用户需要的结果。当前网页搜索引擎都是返回一个排好序的结果页,用户再自己选择。
但如果每次结果页的第一条都是你需要的,你相信搜索引擎,你可能希望默认选择第一个结果就可以,直接跳过结果选择页面。
更进一步,如果搜索引擎和第一个结果网站有合作,或者本来就属于一个公司,那么涉及到的买东西下单等交易动作,你可能希望搜索引擎也帮下单算了,“巧合”的是,下单用电子钱包也是搜索引擎公司的——百度/Google钱包。
一开始大部分还需要你手动介入,后面你只需要提要求,搜索引擎把活全帮你干了。你越来越信任搜索引擎,同时也在一点一点放弃自己的选择,
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/180741.html