机器人的禁区:正确的robots.txt写法

摘要

写robots.txt是网站优化的重要一步,它是百度搜索引擎必须查看的第一个文件。如果没有,搜索引擎蜘蛛会随意爬取,可能会抓到错误的页面。所以,写好robots.txt非常重要!

正文

robots.txt书写

robots.txt是网址SEO优化中起着很重要的功效,robots.txt是百度搜索引擎浏览网址时必须查询的第一个文档,百度搜索引擎搜索引擎蜘蛛赶到一个网站,最先要查验网站根目录下是不是存有robots.txt,如果有,便会依照该文件中的內容明确浏览范畴,假如该文件不会有便会随便爬取,很有可能会抓到反复途径或不正确网页页面。下边我也和大伙说说 rotbots.txt书写 ,期待对大伙儿有一定的协助。

robots.txt书写举例说明:

1、阻拦所有百度搜索引擎浏览网址的一切单位,也就是是阻拦所有模块百度收录你的网址。

User-agent: *

Disallow: /

2、允许所有的百度搜索引擎浏览你的网址的一切单位,它是一般的使用方法。

User-agent: *

Disallow:

大约

User-agent: *

Allow: /

3、如果你网址的某一文件目录不愿被百度搜索引擎百度收录,书写以下:

User-agent: *

Disallow: /文件目录名字1/

Disallow: /文件目录名字2/

Disallow: /文件目录名字3/

太细:不可以写出Disallow: /文件目录名字1/ /文件目录名字2/ 那样的形势,每一个文件目录要独立另起一行尤其表明。

4、只是允许某一百度搜索引擎浏览你的网址。一样搜百度baiduspider Google是googlebot

User-agent: baiduspider

Allow:

User-agent: googlebot

Allow:

5、仅抑制某一百度搜索引擎浏览你的网址。 Google是googlebot 搜百度baiduspider

User-agent: baiduspider

Disallow: /

User-agent: googlebot

Disallow: /

6、阻拦百度搜索引擎浏览网址中所有的动态性网页页面(动态性网页页面就是URL中一切含有“?”的网页页面)

User-agent: *

Disallow: /*?*

7、只是允许百度搜索引擎浏览某一特殊文件后缀方式的网页页面。

User-agent: *

Allow: .后缀名方式(如.html、.htm、.php这些)$

Disallow: /

8、允许百度搜索引擎浏览特殊文件目录中的网页页面

User-agent: *

Allow: /文件目录1/文件目录2(允许浏览文件目录2中的网页页面)

Allow: /文件目录3/文件目录4(允许浏览文件目录4中的网页页面)

Allow: /文件目录5/文件目录6(允许浏览文件目录6中的网页页面)

Disallow: /文件目录1/

Disallow: /文件目录3/

Disallow: /文件目录5/

9、限制百度搜索引擎浏览某一特殊文件后缀方式的网页页面。

User-agent: *

Disallow: /*.后缀名方式(如.html、.htm、.php这些)

10、阻拦检索擎浏览网址特殊某一格式文件的文档(留意并不是网页页面)

User-agent: *

Disallow: /*.(文档布局:如gif、jpg这些)$

之上是一些常见的文件格式。实际的书写也要以每个网址要求而定。

写robots.txt也要留意下列一些难题:

1、robots.txt文件因而纯文档格式存有的txt文件。

2、robots.txt务必置放在网址的网站根目录中。顶部的robots.txt文件务必那样被浏览:如广州市seo网站写的robots.txt http://g.moonseo.cn/robots.txt

3、写robots.txt时要严苛依据之上英文大小写方式抄录

4、一般你的网址非常简单,那麼之上的文件格式充足你运用的了。如果较为巨大,必需浏览这儿而又多余浏览那里,阻拦这一文档又要允许那一个文档,允许浏览浏览含有“?”标识的特殊网页页面这些,那麼你必需协同之上文件格式详尽科学研究紧密结合于你网址的robots.txt文件书写。

5、robots.txt一般在某一分文件目录中还能够存有,可是如果与顶尖文件目录中的robots.txt有不一样,则以顶尖文件目录中robots.txt为标准。

6、仅当您的网址包含不期待被百度搜索引擎百度收录的內容时,才要运用robots.txt文件。如果您期待百度搜索引擎网站收录上所有内容,切勿建立 robots.txt文件,不必建立一个內容为空的robots.txt文件。这一点一般被大家粗心大意,事实上建立空的robots.txt文件对掠夺模块十分不友善。

7、如果你不想亲自动手写robots.txt文件,那麼请Google帮你写。登陆Google服务平台,有转化成robots.txt文件的。

8、

User-agent: *

Disallow: /

这类文件格式不仅仅是阻拦爬取网页页面,更关键的就是你的网址被百度收录了,随后又把robots.txt文件改动成之上布局,那麼你的网址将在百度搜索引擎中被删掉,全部地删掉。

9、元标示对一样平时的网址而言无关紧要,但是你或是得了解:

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>(不能允许爬取该网页页面,不能允许跟随该网页页面上的链持续续爬取)

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>(允许爬取该网页页面,允许跟随该网页页面上的链持续续爬取)

<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>(允许爬取该网页页面,不能允许跟随该网页页面上的链持续续爬取)

<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>(不能允许爬取该网页页面,允许跟随该网页页面上的链持续续爬取)

10、必需删掉一些被百度搜索引擎百度收录的特殊网页页面,参照

http://www.google.com/support/webmasters/bin/answer.py?answer=35301

好像如今仅有Google那么做。

关注不迷路

扫码下方二维码,关注宇凡盒子公众号,免费获取最新技术内幕!

温馨提示:如果您访问和下载本站资源,表示您已同意只将下载文件用于研究、学习而非其他用途。
文章版权声明 1、本网站名称:宇凡盒子
2、本站文章未经许可,禁止转载!
3、如果文章内容介绍中无特别注明,本网站压缩包解压需要密码统一是:yufanbox.com
4、本站仅供资源信息交流学习,不保证资源的可用及完整性,不提供安装使用及技术服务。点此了解
5、如果您发现本站分享的资源侵犯了您的权益,请及时通知我们,我们会在接到通知后及时处理!提交入口
0

评论0

请先

站点公告

🚀 【宇凡盒子】全网资源库转储中心

👉 注册即送VIP权限👈

👻 全站资源免费下载✅,欢迎注册!

记得 【收藏】+【关注】 谢谢!~~~

立即注册
没有账号?注册  忘记密码?

社交账号快速登录