navbar
您当前的位置:首页 > 新闻中心

ROBOTS文件(robots.txt)的作用

  ROBOTS文件,简称爬虫协议,机器人协议。各大搜索引擎再爬取网页的时候,就会用到这个文件。这个文件可以定义网站哪些资源是可以被爬虫爬取的,哪些是不可以被爬取的。表现形式为robots.txt。统一为小写放在网站的根目录下面即可。 robots协议是国际互联网界通行的道德规范,只是约定俗成的,所以不能保证网站的绝对隐私。

 ROBOTS文件是一个文本文件,任何文本编辑器都可以对它进行编辑,包括记事本,它是一个协议。不是一个命名,这个文件是搜索引擎访问网站的第一个文件。

 ROBOTS文件功能比较广泛,它不但可以告诉爬虫网站的访问资源,还可以屏蔽掉站点的一些死链,大文件或者不想让爬虫爬取的资源。用好它将是网站优化的一大利器。

 写法:

  User-agent: *   该值用于描述允许哪个爬虫进行爬取,*表名所有爬虫均可爬取,值支持正则表达式

  Disallow: /xxx/  用于描述禁止爬虫爬取的资源或者目录,该示例表示根目录下面的xxx目录禁止爬取,值支持正则表达式

  Allow:    /xxx/    用于描述允许爬虫爬取的资源或者目录,该示例表示根目录下面的xxx目录可以爬取,值支持正则表达式

  Sitemap:            用于描述本站点的网站地图,值为网站地图的访问路径

  示例:

  1.禁止所有爬虫爬取

  User-agent: *

  Disallow: /

  解读:用户隐私度较高的数据或者不想让竞争对手获取数据可以用该模式

  2.允许所有爬虫爬取

  User-agent: *

  allow: /

  解读:需要做线上推广,需要搜索引擎收录的,大部分企业网站基本都适用于该模式

  3.禁止某个搜索爬虫爬取

  User-agent: 360Spider

  Disallow: /

  解读:搜索引擎有许多,百度,搜狗,360,神马,google等,如果不想让某个搜索引擎爬取的话,就可以适用该模式

  初次接触的童鞋,可以借助于软件生成自己自己所需的robots.txt。譬如站长工具等。

 

foot