互联网思维倡导者
改变烟台SEO优化,网站运营,网络营销现状

扒一扒Robots文件的那些事

本帖最后由 沫雨洪流 于 2016-1-22 10:42 编辑

文章开头,我们先来看看,robots文件的基础内容,以此来解决三个基本问题。

1 了解什么是ROBOTS.TXT
robots文件是一个针对搜索引擎蜘蛛的协议,可以不遵守也可以遵守,意义上等于一个君子协议,违反了也不会有什么法律责任,不过基本上一些大型的搜索引擎都会默认彼此遵守robots协议。
2 知道如何查看ROBOTS.TXT
一般的规范的网站都会写有robots.txt文件,用来保护站内的核心数据。如何查看呢,很简单,我们在网站首页url后输入/robots.txt如此,我们就能检查一个网站的robots文件。如下图:

3 用法及写法
robots文件基本写法很简单的一句话就能概括;三个命令,两个通配符。
三个命令: User-agent, Disallow, Allow
两个通配符:*,$

User-agent—- 后接搜索引擎蜘蛛名称,或者* 例 User-agent: *, User-agent: Googlebot
Diallow—- 禁止后接文件路径或者目录名称 例 Disallow: /fitter.html , Disallow: /news/
Allow—-允许 后接文件路径或者目录名称 例 Allow: /fish.asp, Allow: /ship/
*—- a-z. A-Z, 0-9 代表任何字母数字
$—- 针对后缀

牢记书写的规范性 首字母大写,命令后跟英文冒号,然后空格。再输入路径或者目录。

注:为了更好的了解robots文件,我们应该稍微了解一下现今几个主流的蜘蛛名称。这里给出一个文库的链接,很好的总结了蜘蛛名称

通过一些简单的命令的组合,我们可以规范蜘蛛的抓取范围。

我们举几个例子

1 不许百度蜘蛛抓全站
User-agent: Baiduspider
Disallow: /

2 不许谷歌抓取新闻栏目
User-agent: Googlebot
Disallow: /news/

3 所有蜘蛛只能抓取新闻
User-agent:*
Disallow: /
Allow: /news/

4 禁止所有蜘蛛抓取.asp文件
User-agent: *
Disallow: /*.asp$

4 禁止所有蜘蛛抓取动态页面
User-agent : *
Disallow: /*?*

一般情况下 我们都会禁止蜘蛛抓取网站中几个重要数据存贮文件夹,比如用户登录页面,注册页面,/data/文件夹,网站后台等。

先来, 搜索引擎, 文章, 八卦, 法律

赞(0) 打赏
未经允许不得转载:泥鳅SEO(张弘宇)博客,烟台SEO,互联网思维学习倡导者 » 扒一扒Robots文件的那些事
分享到: 更多 (0)

评论 1

评论前必须登录!

 

五网合一企业网站建设

联系我们在线客服

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏