seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

1、搜索引擎的具体优化规则是什么?

这种问题其实很宽泛,相当于问“怎么做SEO?”这里,用图片解释抓取规则。

搜索引擎从用户搜索到最终搜索结果展现的步骤是(以百度为例):爬,百度不知道你的网站,怎么能得到排名?所以要让百度了解你,首先要抓住这一步;过滤,过滤掉低质量的页面内容;索引,将只存储合格的页面;处理,对搜索词进行处理,如中文特定分词,去除停用词,判断是否需要开始综合搜索,判断是否有拼写错误或错别字等。排名,向用户展示高质量页面;

border-box;">蜘蛛(Spider):
被搜索引擎派出能在网上发现新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;
蜘蛛对一个站点的遍历抓取策略分深度优先和广度优先两种。
seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通) seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

spider抓取的基本过程:

根据爬取目标和范围,可分为

批量性爬虫:明确的抓取目标和范围,达到即停止;

增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应,通用商业引擎一般都是这类;

垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;

百度官方 spider抓取过程中的策略

1、抓取友好性,同一个站点在一段时间内的抓取频率和一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。

2、常用抓取返回码,如503,404,403,301等;

3、多种url重定向的识别,如http 30x、meta refresh重定向和js重定向,Canonical标签也可看做变相的重定向;

4、抓取优先级调配,如深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、大站优先策略等;

5、重复url的过滤,包括url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面;

6、暗网数据的获取,搜索引擎暂时无法抓取到的数据,如存在于网络数据库中,或由于网络环境、网站本身不符合规范、孤岛等问题而造成的无法被抓取,如百度的“阿拉丁”计划;

7、抓取反作弊,抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等;

spider感兴趣的页面有3类:
1.从未抓取过的新页面。
2.抓取过但内容有改动的页面。
3.抓取过但现在已删除的页面。

蜘蛛不能/不喜欢抓取的内容:
1.被robot屏蔽的页面;
2.图片、视频和flash里的内容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服务器端屏蔽;
5.孤岛页面(无任何导入链接);
6.登录后才能获取的内容;

四种近似重复网页类型:
1.完全重复页面:在内容和布局格式上毫无区别;
2.内容重复页面:内容相同,但布局格式不同;
3.布局重复页面:有部分重要的内容相同,并且布局格式相同;
4.部分重复页面有部分重要内容相同,但布局格式不同;

  

典型的网页去重算法:特征抽取、文档指纹生成、相似性计算

低质量的内容页面:
1.多个URL地址指向同一网页以及镜像站点,如带www和不带www的同时解析到一个网站;
2.网页内容重复或近似重复,如采集内容,文不对题或垃圾信息;
没有丰富的内容,如纯图片页面或页面内容搜索引擎识别不了;

过滤-重复文档的处理方式:
1.低质量内容予以删除
2.高质量重复文档分组并优先展示(重复性高表示受欢迎)

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/169827.html

(0)

相关推荐

  • 做seo前要了解什么(seo标题合理写法)

    网站的标题具体写法是什么? 标题符号如何选取,哪种最好?网站的标题有字数限制吗,控制在多少字效果最好? 2018-11-15百度近日发布公告,用图片案例解释网站标题写作。 对网页内...

    教程 2022年2月12日
  • 怎么防止网站被镜像(网站被镜像了怎么处理)

    今天,我们来谈谈网站镜像。首先,让我们得出结论,没有办法处理高级镜像。高级镜像意味着每次你写一篇新闻报道,它都会自动更新一篇,几乎是同步的。 结语之后,我们再来讨论一下网站为什么会...

    教程 2022年2月12日
  • 帝国cms7.0 教程(帝国cms全套教程)

    本教程分为4个版块:帝国基本设置 帝国模板基础 配置选项介绍 帝国内容的添加与修改 ps:因为内容较多,所以个字分开讲解,其他讲解见最后总结。 内容的添加与修改:使用英制,操作流程...

    教程 2022年2月12日
  • 公路自行车和山地自行车比赛(公路自行车和山地车有何区别)

    公路自行车和山地自行车是常见的自行车类型。很多朋友都想知道这两辆自行车哪个更好。其实他们并没有好坏之分,但还是有很多区别的。所以今天,让我们来看看。 一、整体感的不同; 公路客车又...

    教程 2022年2月12日
  • 常见seo工具的介绍(如何优化seo框架)

    Php已经成为网站建设的主流语言,它比asp、net等语言,具有快速、易读、简单和开源的特点。近年来,用php开发的网站管理系统有很多种,主流的主要有phpcms、梦幻编织和帝国。...

    教程 2022年2月12日
  • 新站效应与谷歌沙盒(谷歌沙盒和新站效应有什么区别)

    谷歌沙盒,新站效果 新车站效果: l表示百度对新成立的网站有特殊偏好。在规定的时间内,用两个月左右的时间,它会频繁访问你的网站,新网站效果的网站会在百度获得相对较好的排名。 新站效...

    教程 2022年2月12日