像谷歌这样的搜索引擎有一个问题——它被称为“重复内容”。重复内容意味着相似的内容出现在网络上的多个位置(URL),因此搜索引擎不知道在搜索结果中显示哪个URL。这会损害网页的排名,而且当人们开始链接到相同内容的不同版本时,问题只会变得更糟。本文将帮助您了解重复内容的各种原因,并找到解决方案。
什么是重复内容?
重复内容是在网络上的多个URL上可用的内容。由于多个URL显示相同的内容,搜索引擎不知道哪个URL在搜索结果中排名靠前。因此,他们可能会将两个URL的排名都降低并优先考虑其他网页。
在本文中,我们将主要关注重复内容的技术原因及其解决方案。如果您想对重复内容有更广泛的了解,并了解它与复制或抓取的内容甚至关键字蚕食的关系,我们建议您阅读这篇文章:什么是重复内容。
让我们用一个例子来说明这一点
重复的内容可以比作在十字路口,路标指向同一目的地的两个不同方向:你应该走哪条路?更糟糕的是,最终目的地也有所不同,但只是略有不同。作为读者,您可能不介意是否仍然得到想要的答案,但是搜索引擎必须选择要在搜索结果中显示的页面,因为它当然不想将相同的内容显示两次。
假设您关于“关键字x”的文章出现在http://www.example.com/keyword-x/并且相同的内容也出现在http://www.example.com/article-category/keyword-x/.这种情况并非虚构:它发生在许多现代内容管理系统(CMS)中。然后假设您的文章已被几位博主选中,其中一些链接到第一个URL,而其他链接到第二个。这是搜索引擎的问题显示其真实性质的时候:这是您的问题。重复的内容是您的问题,因为这些链接都宣传不同的URL。如果它们都链接到同一个URL,则您在“关键字x”上排名的机会会更高。
如果您不知道您的网站是否存在重复内容问题,这些重复内容发现工具将帮助您找出答案!
为什么要防止您网站上的重复内容?
重复的内容会损害您的排名。至少,搜索引擎不会知道向用户推荐哪个页面。结果,那些搜索引擎认为重复的所有页面都有排名较低的风险。这是最好的情况。如果您的重复内容问题真的很严重,例如,如果您的内容非常单薄,并且内容逐字逐句地复制,您甚至可能会因试图欺骗用户而面临Google的手动操作。因此,如果您希望您的内容获得排名,那么确保每个页面都提供大量独特的内容非常重要。
不过,这不仅仅是搜索引擎的问题。如果您的用户正在搜索特定页面,如果他们无法找到他们正在寻找的正确内容,这对他们来说真的很令人沮丧。因此,与SEO的许多方面一样,重要的是要处理用户体验和搜索的重复内容问题。
重复内容的原因
重复内容的原因有很多。它们中的大多数是技术性的:人们决定将相同的内容放在两个不同的地方而不明确哪个是原始内容的情况并不常见。当然,除非您克隆了一篇文章并意外发布了它。但除此之外,我们大多数人都觉得不自然。
但是有很多技术原因,这主要是因为开发人员不像浏览器甚至用户那样思考,更不用说搜索引擎蜘蛛了——他们像程序员一样思考。以我们之前提到的那篇文章为例,它出现在http://www.example.com/keyword-x/和http://www.example.com/article-category/keyword-x/上。如果你问开发商,他们会说它只存在一次。
误解URL的概念
不,那个开发人员并没有发疯,他们只是在说不同的语言。CMS可能会为网站提供支持,并且在该数据库中只有一篇文章,但该网站的软件只允许通过多个URL检索数据库中的同一篇文章。那是因为,在开发者眼中,该文章的唯一标识符是该文章在数据库中的ID,而不是URL。但对于搜索引擎来说,URL是一段内容的唯一标识符。如果您向开发人员解释这一点,他们就会开始遇到问题。阅读本文后,您甚至可以立即为他们提供解决方案。
会话ID
例如,您通常希望跟踪访问者并允许他们将想要购买的商品存放在购物车中。为了做到这一点,你必须给他们一个“会话”。会话是访问者在您的网站上所做操作的简要历史记录,可以包含诸如购物车中的商品之类的内容。为了在访问者从一个页面单击到另一个页面时保持该会话,该会话的唯一标识符(称为会话ID)需要存储在某处。最常见的解决方案是使用cookie来实现。但是,搜索引擎通常不会存储cookie。
那时,某些系统会回退到在URL中使用会话ID。这意味着网站上的每个内部链接都会将该会话ID添加到其URL中,并且由于该会话ID对该会话来说是唯一的,因此它会创建一个新URL,因此会产生重复的内容。
用于跟踪和排序的URL参数
重复内容的另一个原因是使用不会更改页面内容的URL参数,例如在跟踪链接中。你看,对于搜索引擎来说,http://www.example.com/keyword-x/和http://www.example.com/keyword-x/?source=rss不是同一个URL。后者可能允许您跟踪人们的来源,但它也可能使您更难获得良好的排名——这是非常不需要的副作用!
当然,这不仅仅用于跟踪参数。它适用于您可以添加到不更改重要内容的URL的每个参数,无论该参数是用于“更改一组产品的排序”还是“显示另一个侧边栏”:所有这些都会导致重复内容。
抓取工具和内容联合
重复内容的大多数原因要么是您的“错”,要么是您的网站的“错”。但是,有时其他网站会在征得或未征得您同意的情况下使用您的内容。它们并不总是链接到您的原始文章,因此搜索引擎不会“获取”它并且必须处理同一文章的另一个版本。您的网站越受欢迎,您获得的爬虫就越多,从而使这个问题变得越来越大。
参数顺序
另一个常见的原因是CMS不使用漂亮干净的URL,而是使用像/?id=1&cat=2这样的URL,其中ID指的是文章,而cat指的是类别。URL/?cat=2&id=1将在大多数网站系统中呈现相同的结果,但对于搜索引擎而言则完全不同。
在我心爱的WordPress以及其他一些系统中,有一个选项可以对您的评论进行分页。这导致内容在文章URL中重复,文章URL+/comment-page-1/、/comment-page-2/等。
适合打印的页面
如果您的内容管理系统创建了适合打印的页面,并且您从文章页面链接到这些页面,Google通常会找到它们,除非您专门阻止它们。现在,问问自己:您希望Google展示哪个版本?有你的广告和周边内容的那个,还是只显示你的文章的那个?
万维网对比非万维网
这是书中最古老的内容之一,但有时搜索引擎仍然会出错:当您网站的两个版本都可以访问时,WWW与非WWW重复内容。另一种不太常见但我也见过的情况是HTTP与HTTPS重复内容,其中通过两者提供相同的内容。
概念性解决方案:“规范”URL讽刺旁注
Canonical是一个源自罗马天主教传统的术语,其中创建了一份圣书清单,并被认为是真实的。它们被称为新约的经典福音书。具有讽刺意味的是,罗马天主教会花了大约300年的时间和无数次的斗争才提出了这个规范的名单,他们最终选择了同一个故事的四个版本……
正如我们已经看到的,多个URL指向相同内容的事实是一个问题,但它是可以解决的。在出版物工作的人通常能够很容易地告诉您某篇文章的“正确”网址应该是什么,但有时当您询问同一家公司的三个人时,您会得到三个不同的答案……
这是一个需要解决的问题,因为最终只能有一个(URL)。一段内容的“正确”URL被搜索引擎称为 规范URL。
识别重复内容问题
您可能不知道您的网站或内容是否存在重复内容问题。使用Google是发现重复内容的最简单方法之一。
有几个 搜索运算符 在此类情况下非常有用。如果您想在您的网站上找到包含关键字X文章的所有网址,您可以在Google中输入以下搜索词组:
site:example.comintitle:”关键字X”
然后,Google将向您显示example.com上包含该关键字的所有页面。您使查询的intitle部分越具体,就越容易清除重复的内容。您可以使用相同的方法来识别网络上的重复内容。假设您文章的完整标题是“关键字X–为什么它很棒”,您会搜索:
intitle:“关键字X–为什么它很棒”
Google会为您提供与该标题匹配的所有网站。有时甚至值得从您的文章中搜索一两个完整的句子,因为某些抓取工具可能会更改标题。在某些情况下,当您进行这样的搜索时,Google可能会在结果的最后一页显示这样的通知:
这表明谷歌已经在对结果进行“去重”。它仍然不好,所以值得点击链接并查看所有其他结果,看看您是否可以修复其中的一些。
阅读更多:DIY:重复内容检查»
重复内容的实用解决方案
一旦您决定哪个URL是您的内容的规范URL,您就必须开始规范化过程(是的,我知道,尝试快速大声说三遍)。这意味着我们必须告诉搜索引擎有关页面的规范版本,并让他们尽快找到它。有四种解决问题的方法,按优先顺序排列:
- 不创建重复内容
- 将重复内容重定向到规范URL
- 向重复页面添加规范链接元素
- 添加从重复页面到规范页面的HTML链接
避免重复内容
上述一些导致重复内容的原因有非常简单的修复方法:
- 您的URL中是否有会话ID?这些通常可以在您的系统设置中禁用。
- 您有重复的打印机友好页面吗?这些完全没有必要:您应该只使用 打印样式表。
- 您是否在WordPress中使用评论分页?您应该在99%的网站上禁用此功能(在设置»讨论下)。
- 您的参数顺序不同吗?告诉您的程序员构建一个脚本以始终以相同的顺序放置参数(这通常称为URL工厂)。
- 是否存在跟踪链接问题?在大多数情况下,您可以使用基于哈希标签的营销活动跟踪,而不是基于参数的营销活动跟踪。
- 你有WWW与非WWW的问题吗?选择一个并通过将一个重定向到另一个来坚持下去 。您还可以在Google网站管理员工具中设置首选项,但您必须声明域名的两个版本。
如果您的问题不是那么容易解决,那么可能仍然值得付出努力。目标应该是完全防止出现重复的内容,因为这是迄今为止问题的最佳解决方案。
301重定向重复内容
在某些情况下,不可能完全阻止您使用的系统为内容创建错误的URL,但有时可以重定向它们。如果这对您来说不合逻辑(我可以理解),请在与开发人员交谈时牢记这一点。如果您确实摆脱了某些重复内容问题,请确保将所有旧的重复内容URL重定向到正确的规范URL。
使用链接
有时您不想或无法删除文章的重复版本,即使您知道这是错误的URL。为了解决这个特殊问题,搜索引擎引入了规范链接元素。它位于您网站的<head>部分,如下所示:
<linkrel=”canonical”href=”http://example.com/wordpress/seo-plugin/”/>
在规范链接的href部分,您可以为文章放置正确的规范URL。当支持规范的搜索引擎找到此链接元素时,它会执行软301重定向,将该页面收集的大部分链接值转移到您的规范页面。
不过,此过程比301重定向要慢一些,因此,如Google的JohnMueller所述,如果您可以只执行301重定向,那将更可取 。
继续阅读:rel=canonical•它是什么以及如何(不)使用它»
链接回原始内容
如果您无法执行上述任何操作,可能是因为您无法控制您的内容所在网站的<head>部分,在文章顶部或底部添加返回原始文章的链接始终是一个不错的选择主意。您可能希望通过在RSS源中添加返回文章的链接来执行此操作。一些抓取工具会过滤掉该链接,但其他人可能会将其保留。如果Google遇到多个指向您原始文章的链接,它会很快确定那是实际的规范版本。
如果人们从您的网站复制内容怎么办?[/readmore]
结论:重复的内容是可以修复的,应该修复
重复的内容无处不在。我还没有遇到过一个超过1,000个页面的网站,它至少没有一个微小的重复内容问题。这是您需要不断关注的事情,但它是可以修复的,并且奖励可能很丰富。只需从您的网站中删除重复的内容,您的优质内容就可以在排名中飙升!
评估您的技术SEO适应性
修复重复内容是您的技术SEO的重要组成部分。想知道您网站的整体技术SEO有多适合?我们创建了一个技术SEO健身测验,可帮助您弄清楚您需要做什么!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/167329.html