在您的网站内找到重复内容

在您的网站内找到重复内容

在实现时顶级搜索引擎排名在Google对您很重要,您将希望确保您的网站没有重复内容的问题。以下是识别的一些方法重复内容以及如何使其免于稀释您的网站的主题。

重复内容 - 博客

博客是一个很好的分享信息和与网站访问者互动的方式。某些特征Web博客能否在同一内容内自动生成多个网页,造成问题重复内容。类别页面,racitialback URL,档案和RSS馈送等事项在博客节目(如WordPress)中自动创建,并且应尽快处理。

为防止博客的这些特定区域具有重复内容,您可以简单地告诉搜索引擎不会索引重复内容驻留在服务器内的特定目录。请记住,经常使用服务器本身上的这些目录,可以通过对数据库的调用动态生成它们。

在robots.txt文件中添加以下内容以防止WordPress创建重复的内容:

  • 禁止:/类别/
  • 禁止:/追踪/
  • 不允许:/ /

上面列出的禁止函数告诉谷歌它们不能在这些文件夹中索引任何页面。这为您提供了在文件夹级别控制谷歌在您的网站中索引和不索引的能力。如果你不希望有特定的文件索引,你也需要在页面级别使用元机器人标记。

重复内容-内容管理系统

一个CMS.是在每次需要进行更改时,在无需网络设计师的情况下添加副本的最方便的方法之一。它们易于使用和构建,使得几乎任何人都可以轻松开始实现过程,而无需大量培训或有关系统的信息。

常时这一点内容管理系统创建重复的内容,试图为访问者提供不同版本的页面。其中两个最大的罪魁祸首是:

  • 打印机友好版本
  • 可下载版本(Word Docs / PDF文件)

在你的网站上有打印友好的版本和多种格式的版本绝对没有什么错,但是,它们对搜索引擎没有任何好处;因此,最好在Robots.txt文件中禁止它们。下面是一个例子,你可以阻止谷歌索引这些类型的重复页面:

  • 禁止:/打印友好/
  • 禁止:/ pdf /
  • 禁止:/单词/

请记住,上面所示的所有示例都是实例。您需要找到这些文件夹的正确位置,并在robots.txt文件中进行必要的修改。

如果您想检查更改如何影响您的网站,则可以使用提供的工具谷歌网站管理员控制台这允许您查看GoogleBot可以索引哪些文件夹。

关于Robots.txt文件的最后一点注意事项。请不要将以下内容放入robots.txt文件中:

  • 不允许: /

基本上意味着禁止根文件夹中的所有内容......我们实际上有人无法在搜索引擎中获得任何索引的页面,只能发现此调用在robots.txt文件中。

我相信主要搜索引擎已经修改了他们阅读上述呼叫的方式,意味着禁止“没有”,但我不建议抓住这个机会。

好运!