扒一扒Robots文件的那些事-泥鳅SEO(张弘宇)博客,烟台SEO,互联网思维学习倡导者

本帖最后由沫雨洪流于 2016-1-22 10:42 编辑

文章开头，我们先来看看，robots文件的基础内容，以此来解决三个基本问题。

1 了解什么是ROBOTS.TXT
robots文件是一个针对搜索引擎蜘蛛的协议，可以不遵守也可以遵守，意义上等于一个君子协议，违反了也不会有什么法律责任，不过基本上一些大型的搜索引擎都会默认彼此遵守robots协议。
2 知道如何查看ROBOTS.TXT
一般的规范的网站都会写有robots.txt文件，用来保护站内的核心数据。如何查看呢，很简单，我们在网站首页url后输入/robots.txt如此，我们就能检查一个网站的robots文件。如下图：

3 用法及写法
robots文件基本写法很简单的一句话就能概括；三个命令，两个通配符。
三个命令： User-agent, Disallow, Allow
两个通配符：*,$

User-agent—- 后接搜索引擎蜘蛛名称，或者* 例 User-agent: *, User-agent: Googlebot
Diallow—- 禁止后接文件路径或者目录名称例 Disallow: /fitter.html , Disallow: /news/
Allow—-允许后接文件路径或者目录名称例 Allow: /fish.asp, Allow: /ship/
*—- a-z. A-Z, 0-9 代表任何字母数字
$—- 针对后缀

牢记书写的规范性首字母大写，命令后跟英文冒号，然后空格。再输入路径或者目录。

注：为了更好的了解robots文件，我们应该稍微了解一下现今几个主流的蜘蛛名称。这里给出一个文库的链接，很好的总结了蜘蛛名称

通过一些简单的命令的组合，我们可以规范蜘蛛的抓取范围。

我们举几个例子

1 不许百度蜘蛛抓全站
User-agent: Baiduspider
Disallow: /

2 不许谷歌抓取新闻栏目
User-agent: Googlebot
Disallow: /news/

3 所有蜘蛛只能抓取新闻
User-agent：*
Disallow: /
Allow: /news/

4 禁止所有蜘蛛抓取.asp文件
User-agent: *
Disallow: /*.asp$

4 禁止所有蜘蛛抓取动态页面
User-agent : *
Disallow: /*?*

一般情况下我们都会禁止蜘蛛抓取网站中几个重要数据存贮文件夹，比如用户登录页面，注册页面，/data/文件夹，网站后台等。

先来, 搜索引擎, 文章, 八卦, 法律

扒一扒Robots文件的那些事

相关推荐

评论 1

评论前必须登录！

热门文章

近期文章

新评论

五网合一企业网站建设

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏