重复内容也可以称为重复内容。复制内容是指两个或两个以上的网址具有相同或非常相似的内容。复制内容可能发生在同一个网站或不同的网站。
1.复制内容的原因
以下原因可能导致内容被复制。在SEO前面讨论的曾庆平的网站标准化会产生重复的内容。
代理商和零售商从产品制造商那里传递产品信息。这没什么不好。大多数制造商都认为不存在版权问题。然而,大多数代理商、零售商和批发商直接复制,没有做任何改变。大家用的都是同一个产品描述,所以这些电商网站全是抄袭的内容。
打印版本。除了正常的浏览页面外,很多网站还提供了更适合打印的页面。如果不以适当的方式禁止爬行,这些打印页面将成为复制内容。
网站结构导致的各种页面版本。例如,产品列表按价格、评论、保质期等排序。以及博客的分类和归档、时间归档等。
网页内容由RSS生成。很多网站,尤其是新闻网站,都是利用其他网站的RSS提要来生成网站内容的,这种内容在原源和很多其他类似的网站中都出现过很多次。
使用会话标识。搜索引擎蜘蛛在不同的时间访问网页时会被赋予不同的sessionids。其实网页的内容是一样的。由于参数不同,1D会议被视为一个不同的网页。
网页上实质性内容太少。不可避免的,每一个网页上都有共同的部分,比如导航栏、版权声明、广告等等。如果网页正文部分太短,内容量无法匹配一般部分,可能会被认为是复制内容页面。
转载和抄袭。有的时候别人抄袭你网站的内容,有的时候善意转载,有的时候作者自己在不同的网站上发表文章,这些都会导致内容被抄袭。
镜像网站。镜像网站曾经很受欢迎。当网站太忙太慢时,用户可以通过更换镜像来观看内容或下载内容,这也造成了复制内容的风险。
或者产品类型和服务类型的区别比较小。例如,一些网站按地区对其服务进行分类,但实际上向每个地区提供的产品或服务是相同的。这些按地区分类的页面只改变了地名,其他服务的描述都一样。网址是任意加字符还是返回200状态码。在一些网站中,由于技术原因,用户在URL后添加任何字符或参数,服务器可以正常返回200个状态码,返回相同的重复内容页面,没有任何字符。
检查页面是否有复制版本相对简单。在页面正文中拿出一句话,加上双引号,在搜索引擎中搜索。从结果中,你可以看到是否有多页包含这句话。一般来说,一个随机选择的句子不太可能完全出现在另一篇无关紧要的文章中。
2.复制内容的危害
很多SEO对复制内容有误解,认为搜索引擎会惩罚网站上的复制内容。事实上,搜索引擎不会因为网站有少量复制内容而惩罚或降低权力。所有的搜索引擎所做的就是试图从多个页面中挑选出真实的原始版本,并给它适当的排名,而其他复制的版本不会被返回或在搜索结果中排名较低。
但是,由于是交给搜索引擎进行判断,有可能在判断时出错,将原页面视为转载或复制的内容,从而排名不佳。这真的像是对原创页面的惩罚,但不是因为抄袭内容本身,而是因为搜索引擎没能判断出原创性。
看来同一个网站的重复内容没那么严重。无论搜索引擎判断哪个版本是原创,都是自己网站上的页面。问题是,搜索引擎认为最合适的网址可能和SEO站长认为最合适的网址不一样。SEO站长在优化和链接的时候,重点是A页,但是搜索引擎认为B页最好(A和B内容相同),SEO站长在A页浪费了很多精力。
在同一个网站复制内容会分散权重。由于网页出现在网站上,因此必须有指向这些网页的链接。如果一个独特的内容只出现在一个网站上,网站上的链接可以集中在这个网站上,这样可以提高它的排名能力。分散链接到多个网站会使每个网站的排名能力不突出。外部链接也是如此,很可能分散到不同的网址。
在同一个网站上复制也导致包含太多无意义的页面,在域名权限不高的情况下可能会占用其他独特内容的包含机会。如果网站上存在大量的重复内容,可能会导致搜索引擎对网站质量产生怀疑,从而导致被处罚。
3.删除复制的内容。
由网址标准化引起的重复内容已经在前面讨论过了。最好的解决办法是保证一篇文章只对应一个URL,不存在多个版本。网站的所有内部链接都以统一的方式连接到这个网址。有时需要使用301重定向。
不是由于网址规范化造成的同站内复制内容,解决的最好方法是选取一个版本允许收录,其他版本禁止搜索引擎抓取或收录。
既可以使用robots文件禁止抓取,也可以使用noindex meta robots 标签禁止索引。连向不希望收录的复制内容的链接使用nofollow标签,JavaScript等阻止蜘蛛爬行。
另一个解决复制内容的方法是使用 canonical 标签。canonical 标签既可以应用在网址规范化引起的复制内容上,也可以用在其他情况下。
比如网站上同一个款式的鞋子可能分为不同型号,型号之间唯一的区别只是颜色。这些型号生成多个网址,产品说明也几乎完全一样,只是说明颜色的地方不一样。
这时就可以使用canonical 标签,用户不会被转向,还是看到不同页面,但搜索引擎会把权重集中到其中一个型号上,从而避免复制内容。
带有Session ID 的页面也可以使用canonical 标签,如页面:http://www.yongfengseo.com/page-a.html 放上代码:
这样,后面无论生成什么 Session ID:
http://www.yongfengseo.com/page-a.html?sessionid=123456
http://www.yongfengseo.com/page-a.html?sessionid=456789
上面的URL都会被搜索引擎把权重集中到:http://www.yongfengseo.com/page-a.html
不同网站之间复制内容解决起来就比较麻烦,因为其他网站上的内容是无法控制的。能够做的只有两点。一是在页面中加入版权声明,要求转载的网站保留版权声明及指向原出处的链接。
有些聚合网站会抓取feed自动生成内容,所以在feed中也要加入版权声明和链接。
一般来说,原创版本的外部链接会比转载多一些,就算在中文互联网这个对版权极不重视的环境下,也还会有一些站长转载时保留原出处链接。对搜索引擎来说,指向原出处的链接是判断原创的最重要信号。
另一点就是坚持原创,假以时日必定能够增加网站权重,使网站上内容被判断为原创的机会增加。如果有其他网站大量抄袭,造成原创内容不能获得排名,也可以考虑联系对方,要求加上版权链接或删除抄袭内容,或者向对方主机、域名提供商投诉,向搜索引擎投诉等。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160504.html