谷歌中文站长博客:整合网站重复内容
处理网站上的重复内容是一项非常困难的工作。随着网站的发展,必须不断增加、改变或删除各种功能;与此同时,不同的网站内容来了又去。一段时间后,许多网站都会有以多个URL网址形式存在的系统化垃圾代码,这些URL都返回同样的内容。在一般情况下,除了会增加搜索引擎的抓取和索引内容的难度以外,你的网站上存在重复内容并不构成问题。此外,通过导入链接而得到的PageRank以及类似信息可能会在我们尚未确定为重复内容的网页间扩散,导致你的首选网页在谷歌中的排名降低。 处理你的网站内部重复内容的步骤 识别网站上的重复内容。 确定你需要的首选URL网址。 保持网站内部的统一性。 在必要和可能的情况下使用301永久重定向。 在可能的情况下,在你网页上使用rel="canonical"。 可能的情况下,在Google网站站长工具中使用URL参数处理工具 怎样处理robots.txt文件? 使用robots.txt文件来禁止对重复内容进行抓取不在我们推荐的方法之内。我们建议你不要使用robots.txt文件或其他方式来禁止对你网站上的重复内容的访问。你可以使用rel="canonical" 链接标签、URL参数处理工具或301重定向。如果完全阻止了对重复内容的访问,搜索引擎必须将这些URL作为独立的不同网页处理,因为它们无法分辨出这些URL其实只是指向相同内容的不同网址。更好的解决方法是允许对其进行抓取,同时用我们推荐的方法将这些URL网址明确标记为重复内容。如果你允许我们访问这些URL网址,Google抓取机器人将学会通过查看URL确定其是否为重复内容,在各种情况下都能很好地避免不必要的重复爬行抓取。为了防止重复内容仍然引导我们过多地爬行搜索你的网站,你还可以调整Google网站站长工具里的抓取速度。 我们希望这些方法能够帮助控制你的网站上的重复内容。你也可登录我们的帮助中心查看有关重复内容的基本信息。如有任何问题,欢迎你随时进入Google网站站长帮助论坛参加讨论。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |