网站拥有大量文章后,大多数网站会选择对文章进行重新分类,生成相应的聚合页面,称为TAG聚合页面。由于以前的文章大多没有添加文章标签或者标签不够规范,用信息标签调用相关文章只能通过搜索来实现。以下tag标签调用文章的算法供大家参考,开阔思路。
根据标签标签的匹配程度不同,文章在下图中分为四个步骤,排序的优先顺序是从上到下。具体的排序规则详述如下。
第一步:标题可以完全包含标签词的文章属于标签词匹配度高的文章,排名第一。比如标签这个词就是“SEO算法”,如果“农村土地流转”这个词完全出现在文章的标题中,就完全被收录了。以下文章标题属于这种情况:
SEO算法有什么,SEO算法,和SEO算法?有什么重要的你必须知道,多个文章标题可以完全包含标签。然后按照文章发布时间的顺序排列,最新的先排。第一步调用的文章数量没有限制,所有符合条件的文章都会显示出来。
第二步:标签分词后可以完全包含在标题中的文章。第二梯的物品属于标签词匹配准确的物品,只排在第一梯的后面。比如标签词是“SEO算法”,分词后得到“SEO”和“算法”;两个字,文章的标题。如果两个词都出现,分词后可以完全包含。以下文章属于这种情况:
在SEO.学习这些算法的时候你一定知道SEO看,百度把这些算法和更新成了SEO.你连这些算法?都不知道如果标签标签分割后可以完整收录多个文章标题,会按照文章发布时间的顺序排列,最新的会排在第一位。第二步调用的文章数量没有限制,所有符合条件的文章都会显示出来。
第三步:分词标签后,标题部分包含第三步。物品是广泛搭配的物品,排列在下端。比如标签词是“农村土地流转”,分割后得到“农村”“土地”“流转”三个字。这三个词中只有两个或一个出现在文章的标题中。以下文章属于这一类:
2017年湖南省农村土地现状分析。
/li>
如果存在多个文章属于第三阶梯这类情况,则采用TF-IDF算法,根据每个文章标题对应的TF-IDF值排序,从大到小排列。这样更把更相关的文章排列在前面。
TF-IDF算法公式:把tag词分词后在标题中出现的每个词TF*IDF值求和。
TF=该词在目前文章标题中出现的次数/标题总词数
IDF=log(土流网文章总数/标题中包含这个词的文章数)
例子:对于“农村土地流转”这个tag词,“2019年湖南农村土地现状分析”和“全国各地土地流转形势简介”两个文章的TF*IDF值分别是多少?哪个文章排前面?
对于2017年湖南农村土地现状分析这个文章:
“农村”这个词,TF*IDF=1/7 * log(50000/9760)=0.143*1.63=0.233
“农村”这个词在上述标题中只出现1次,标题分词后一共7个词语,假设网站一共50000个文章,标题出现了“农村”的文章有9760篇。
“土地”这个词,TF*IDF=1/7 * log(50000/19180)=0.143*0.955=0.137
2017年湖南农村土地现状分析TF*IDF值为:0.233+0.137=0.37
对于全国各地土地流转形势简介这个文章:
“土地”这个词,TF*IDF=1/6 * log(50000/19180)=0.143*0.955=0.159
“流转”这个词,TF*IDF=1/6 * log(50000/7100)=0.143*1.952=0.279
全国各地土地流转形势简介TF*IDF值为:0.159+0.279=0.438
显然这个文章的TF-IDF值大于上面那个文章,这个文章排前面。
程序在计算第三阶梯文章的TF-IDF
Tf-idf相关介绍:baike.baidu.com/link?url=9jWqcxIe110pMpJN0LW0r2T1YgSSWCxOQFMOWGzi_u4SUl5ChaTAs3Tbk0OPi_4va-fizgtNCx3A-KMb31ihRa
- 第四阶梯:tag词分词后标题中都没有出现,但是文章正文内容完成包含超过4次。
第四阶梯文章属于最广泛匹配的文章,排列在最后面。这类文章基本是主题和tag词不相关,但是正文中有部分相关内容。
存在多个文章属于这类情况,则按照tag词完整出现的次数排序,出现次数最多的排列在前面,次数相同则按照发布时间的先后顺序排列,最新发布的排前面。第四阶梯的文章调用不限制数量,符合条件的全部展现出来。
5、注意事项
考虑到程序计算速度的问题,所有标签详情页可以缓存一天,可以考虑夜间计算每个标签的调用结果进行缓存。
标签调用文章总数最多不超过400篇,每页展现20条,也就是最多20页。
以上就是在考虑做TAG聚合页面的时候,所要考虑的页面调用规则,合理的规则可以大大提高文章相关性和关键词密度,以达到网站权重的提升,获得页面排名。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/31384.html