当前位置:首页 > 新闻中心 > 如何进行Robots.txt文件优化

如何进行Robots.txt文件优化

来 源:http://www.seoteacher.com.cn发布时间:2019-11-18点击次数:


  SEO远远超出了关键词研究和建立反向链接的范围。SEO的技术方面也将在很大程度上影响你的搜索排名。这是你的robots.txt文件将成为一个重要的因素。

  以上海SEO优化小编的经验,大多数人对robots.txt文件不太熟悉,也不知道从哪里开始。这就是小编编写这篇文章指南的原因。

  一、什么是robots.txt文件?

  搜索引擎机器人在爬网网站时,会使用robots.txt文件来确定该网站的哪些部分需要编制索引。

  Sitemaps托管在您的根文件夹和robots.txt文件中。你创建站点地图可以使搜索引擎更轻松地为你的内容编制索引。

  你可以将robots.txt文件视为机器人的指南或说明手册。该指南包含需要遵循的规则。这些规则将告诉抓取工具允许查看的内容(例如站点地图上的页面)以及站点的哪些部分受到限制。

  如果你的robots.txt文件未正确优化,则可能会导致网站出现严重的SEO问题。

  因此,对于你而言,准确了解其工作原理以及确保该网站的技术组件对您有所帮助(而不是对你网站造成伤害)所需采取的措施非常重要。

  二、找到您的robots.txt文件

  在执行任何操作之前,第一步是验证您是否具有robots.txt文件。你们当中有些人可能以前从未来过这里。

  查看你的网站是否已经存在的最简单方法是将网站的URL放入Web浏览器中,然后输入/robots.txt。

  当你这样做时,将发生三件事之一。

  1、你会找到一个类似于上面的robots.txt文件。

  2、你会发现robots.txt文件完全空白,但至少已设置好。

  3、你会收到404错误,因为该页面不存在。

  你们中的大多数人可能会陷入前两种情况。创建网站时,默认情况下,大多数网站都会设置robots.txt文件,因此不会出现404错误。如果你从未进行任何更改,则这些默认设置仍应存在。

  要创建或编辑此文件,只需到你网站的根文件夹即可查看。

  三、修改robots.txt内容

  在大多数情况下,你通常不想过多地花时间,你不会经常更改它。

  你要在robots.txt文件中添加内容的唯一原因是,如果网站上的某些页面不希望搜引擎蜘蛛程序进行爬网和索引。

  你需要熟悉用于命令的语法。因此,打开一个纯文本编辑器来编写语法。

  我将介绍最常用的语法。

  首先,您需要识别爬虫。这称为用户代理。

  用户代理: *

  上面的语法表示所有搜索引擎抓取工具(Google,Yahoo,Bing等)

  用户代理:Googlebot

  顾名思义,此值直接与Google的爬虫有关。

  识别搜寻器之后,您可以允许或禁止网站上的内容。这是我们之前在Quick Sprout robots.txt文件中看到的示例。

  用户代理: *

  禁止:/ wp-content /

  此页面用于我们的WordPress管理后端。因此,此命令告诉所有搜寻器(User-agent:*)不要搜寻该页面。机器人没有理由浪费时间来爬行它。

  假设您要告诉所有搜索引擎蜘蛛不要抓取你网站上的该特定页面。http://www.yourwebsite.com/samplepage1/

  语法如下所示:

  用户代理: *

  不允许:/ samplepage1 /

  这是另一个例子:

  禁止:/ *。gif $

  这将阻止特定的文件类型(在本例中为.gif)。

  四、为什么需要优化robots.txt文件

  这是你需要了解的内容。robots.txt文件的目的不是完全阻止来自搜索引擎的页面或网站内容。

  相反,你只是想最大限度地提高其抓取预算的效率。所要做的就是告诉这些搜索引擎蜘蛛,它们不需要爬网非公开的页面。

  以下是Google抓取预算工作原理的摘要。

  它分为两部分:

  1、抓取速率限制

  2、抓取需求

  爬网速率限制表示爬网程序可以与任何给定站点建立的连接数。这还包括两次提取之间的时间量。

  快速响应的网站具有较高的抓取速率限制,这意味着它们可以与搜索引擎蜘蛛建立更多的连接。另一方面,由于爬网而变慢的站点将不会被频繁地爬网。

  网站也会根据需求进行爬网。这意味着流行的网站会更频繁地被抓取。另一方面,即使未达到抓取速度限制,也不会频繁抓取不受欢迎或不经常更新的网站。

  通过优化robots.txt文件,可以使搜索引擎的工作变得更加轻松。通过使用robots.txt文件禁止爬网程序提供此类内容,它可以确保爬网程序花更多的时间查找和索引您网站上的热门内容。

  搜索引擎搜寻器会在左侧网站上花费更多时间,因此会花费更多的搜寻预算。但是,右侧的网站可确保仅对主要内容进行爬网。

  五、测试robots.txt文件

  找到,修改和优化了robots.txt文件后,就该对所有内容进行测试以确保其正常工作了。

  Robots.txt最佳做法

  必须将您的robots.txt文件命名为“ robots.txt”。区分大小写,表示不接受Robots.txt或robots.TXT。

  robots.txt文件必须始终位于主机顶级目录中网站的根文件夹中。

  任何人都可以看到您的robots.txt文件。他们所需要做的就是在根域之后输入带有/robots.txt的网站URL名称以进行查看。因此,请勿将其用作欺骗或欺骗手段,因为它本质上是公共信息。

  在大多数情况下,我不建议为不同的搜索引擎搜寻器制定具体规则。我看不到为Google拥有一套特定的规则而为Bing提供另一套规则的好处。如果您的规则适用于所有用户代理,那么混乱就少得多。

  在robots.txt文件中添加禁止语法不会阻止该页面被编入索引。相反,你必须使用noindex标记。

  搜索引擎搜寻器非常先进。他们基本上以与真实用户相同的方式查看您的网站内容。因此,如果您的网站使用CSS和JS起作用,则不应在robots.txt文件中阻止这些文件夹。如果抓取工具看不到您网站的正常运行版本,这将是主要的SEO错误。

  如果您希望robots.txt文件在更新后立即被识别,请直接将其提交给搜索引擎,而不是等待网站被抓取。

  链接资产不能从阻止的页面传递到链接目标。这意味着不允许的页面上的链接将被视为nofollow。因此,除非某些链接位于搜索引擎可以访问的其他页面上,否则它们不会被索引。

  robots.txt文件不能代替阻止私人用户数据和其他敏感信息显示在您的SERP中。就像我之前说过的那样,不允许的页面仍然可以被索引。因此,您仍然需要确保这些页面受密码保护并使用noindex meta指令。

  站点地图应放置在robots.txt文件的底部。