机器人的禁区：正确的robots.txt写法

摘要

写robots.txt是网站优化的重要一步，它是百度搜索引擎必须查看的第一个文件。如果没有，搜索引擎蜘蛛会随意爬取，可能会抓到错误的页面。所以，写好robots.txt非常重要！

正文

robots.txt书写

robots.txt是网址SEO优化中起着很重要的功效，robots.txt是百度搜索引擎浏览网址时必须查询的第一个文档，百度搜索引擎搜索引擎蜘蛛赶到一个网站，最先要查验网站根目录下是不是存有robots.txt，如果有，便会依照该文件中的內容明确浏览范畴，假如该文件不会有便会随便爬取，很有可能会抓到反复途径或不正确网页页面。下边我也和大伙说说 rotbots.txt书写，期待对大伙儿有一定的协助。

robots.txt书写举例说明：

1、阻拦所有百度搜索引擎浏览网址的一切单位，也就是是阻拦所有模块百度收录你的网址。

User-agent: *

Disallow: /

2、允许所有的百度搜索引擎浏览你的网址的一切单位，它是一般的使用方法。

User-agent: *

Disallow:

大约

User-agent: *

Allow: /

3、如果你网址的某一文件目录不愿被百度搜索引擎百度收录，书写以下：

User-agent: *

Disallow: /文件目录名字1/

Disallow: /文件目录名字2/

Disallow: /文件目录名字3/

太细：不可以写出Disallow: /文件目录名字1/ /文件目录名字2/ 那样的形势，每一个文件目录要独立另起一行尤其表明。

4、只是允许某一百度搜索引擎浏览你的网址。一样搜百度baiduspider Google是googlebot

User-agent: baiduspider

Allow:

User-agent: googlebot

Allow:

5、仅抑制某一百度搜索引擎浏览你的网址。 Google是googlebot 搜百度baiduspider

User-agent: baiduspider

Disallow: /

User-agent: googlebot

Disallow: /

6、阻拦百度搜索引擎浏览网址中所有的动态性网页页面（动态性网页页面就是URL中一切含有“？”的网页页面）

User-agent: *

Disallow: /*?*

7、只是允许百度搜索引擎浏览某一特殊文件后缀方式的网页页面。

User-agent: *

Allow: .后缀名方式（如.html、.htm、.php这些）$

Disallow: /

8、允许百度搜索引擎浏览特殊文件目录中的网页页面

User-agent: *

Allow: /文件目录1/文件目录2（允许浏览文件目录2中的网页页面）

Allow: /文件目录3/文件目录4（允许浏览文件目录4中的网页页面）

Allow: /文件目录5/文件目录6（允许浏览文件目录6中的网页页面）

Disallow: /文件目录1/

Disallow: /文件目录3/

Disallow: /文件目录5/

9、限制百度搜索引擎浏览某一特殊文件后缀方式的网页页面。

User-agent: *

Disallow: /*.后缀名方式（如.html、.htm、.php这些）

10、阻拦检索擎浏览网址特殊某一格式文件的文档（留意并不是网页页面）

User-agent: *

Disallow: /*.（文档布局：如gif、jpg这些）$

之上是一些常见的文件格式。实际的书写也要以每个网址要求而定。

写robots.txt也要留意下列一些难题：

1、robots.txt文件因而纯文档格式存有的txt文件。

2、robots.txt务必置放在网址的网站根目录中。顶部的robots.txt文件务必那样被浏览：如广州市seo网站写的robots.txt http://g.moonseo.cn/robots.txt

3、写robots.txt时要严苛依据之上英文大小写方式抄录

4、一般你的网址非常简单，那麼之上的文件格式充足你运用的了。如果较为巨大，必需浏览这儿而又多余浏览那里，阻拦这一文档又要允许那一个文档，允许浏览浏览含有“?”标识的特殊网页页面这些，那麼你必需协同之上文件格式详尽科学研究紧密结合于你网址的robots.txt文件书写。

5、robots.txt一般在某一分文件目录中还能够存有，可是如果与顶尖文件目录中的robots.txt有不一样，则以顶尖文件目录中robots.txt为标准。

6、仅当您的网址包含不期待被百度搜索引擎百度收录的內容时，才要运用robots.txt文件。如果您期待百度搜索引擎网站收录上所有内容，切勿建立 robots.txt文件，不必建立一个內容为空的robots.txt文件。这一点一般被大家粗心大意，事实上建立空的robots.txt文件对掠夺模块十分不友善。

7、如果你不想亲自动手写robots.txt文件，那麼请Google帮你写。登陆Google服务平台，有转化成robots.txt文件的。

8、

User-agent: *

Disallow: /

这类文件格式不仅仅是阻拦爬取网页页面，更关键的就是你的网址被百度收录了，随后又把robots.txt文件改动成之上布局，那麼你的网址将在百度搜索引擎中被删掉，全部地删掉。

9、元标示对一样平时的网址而言无关紧要，但是你或是得了解：

＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞（不能允许爬取该网页页面，不能允许跟随该网页页面上的链持续续爬取）

＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞（允许爬取该网页页面，允许跟随该网页页面上的链持续续爬取）

＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞（允许爬取该网页页面，不能允许跟随该网页页面上的链持续续爬取）

＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞（不能允许爬取该网页页面，允许跟随该网页页面上的链持续续爬取）

10、必需删掉一些被百度搜索引擎百度收录的特殊网页页面，参照

http://www.google.com/support/webmasters/bin/answer.py?answer=35301

好像如今仅有Google那么做。

关注不迷路

扫码下方二维码，关注宇凡盒子公众号，免费获取最新技术内幕！

温馨提示：如果您访问和下载本站资源，表示您已同意只将下载文件用于研究、学习而非其他用途。

文章版权声明 1、本网站名称：宇凡盒子
2、本站文章未经许可，禁止转载！
3、如果文章内容介绍中无特别注明，本网站压缩包解压需要密码统一是：yufanbox.com
4、本站仅供资源信息交流学习，不保证资源的可用及完整性，不提供安装使用及技术服务。点此了解
5、如果您发现本站分享的资源侵犯了您的权益，请及时通知我们，我们会在接到通知后及时处理！提交入口

机器人的禁区：正确的robots.txt写法

摘要

正文

关注不迷路

评论0

在线客服

升级VIP

夜间模式

返回顶部

站点公告

机器人的禁区：正确的robots.txt写法

摘要

正文

关注不迷路

大家在看

评论0

在线客服

升级VIP

夜间模式

返回顶部

站点公告

社交账号快速登录

社交账号快速登录