摘要
写robots.txt是网站优化的重要一步,它是百度搜索引擎必须查看的第一个文件。如果没有,搜索引擎蜘蛛会随意爬取,可能会抓到错误的页面。所以,写好robots.txt非常重要!
正文
robots.txt书写
robots.txt是网址SEO优化中起着很重要的功效,robots.txt是百度搜索引擎浏览网址时必须查询的第一个文档,百度搜索引擎搜索引擎蜘蛛赶到一个网站,最先要查验网站根目录下是不是存有robots.txt,如果有,便会依照该文件中的內容明确浏览范畴,假如该文件不会有便会随便爬取,很有可能会抓到反复途径或不正确网页页面。下边我也和大伙说说 rotbots.txt书写 ,期待对大伙儿有一定的协助。
robots.txt书写举例说明:
1、阻拦所有百度搜索引擎浏览网址的一切单位,也就是是阻拦所有模块百度收录你的网址。
User-agent: *
Disallow: /
2、允许所有的百度搜索引擎浏览你的网址的一切单位,它是一般的使用方法。
User-agent: *
Disallow:
大约
User-agent: *
Allow: /
3、如果你网址的某一文件目录不愿被百度搜索引擎百度收录,书写以下:
User-agent: *
Disallow: /文件目录名字1/
Disallow: /文件目录名字2/
Disallow: /文件目录名字3/
太细:不可以写出Disallow: /文件目录名字1/ /文件目录名字2/ 那样的形势,每一个文件目录要独立另起一行尤其表明。
4、只是允许某一百度搜索引擎浏览你的网址。一样搜百度baiduspider Google是googlebot
User-agent: baiduspider
Allow:
User-agent: googlebot
Allow:
5、仅抑制某一百度搜索引擎浏览你的网址。 Google是googlebot 搜百度baiduspider
User-agent: baiduspider
Disallow: /
User-agent: googlebot
Disallow: /
6、阻拦百度搜索引擎浏览网址中所有的动态性网页页面(动态性网页页面就是URL中一切含有“?”的网页页面)
User-agent: *
Disallow: /*?*
7、只是允许百度搜索引擎浏览某一特殊文件后缀方式的网页页面。
User-agent: *
Allow: .后缀名方式(如.html、.htm、.php这些)$
Disallow: /
8、允许百度搜索引擎浏览特殊文件目录中的网页页面
User-agent: *
Allow: /文件目录1/文件目录2(允许浏览文件目录2中的网页页面)
Allow: /文件目录3/文件目录4(允许浏览文件目录4中的网页页面)
Allow: /文件目录5/文件目录6(允许浏览文件目录6中的网页页面)
Disallow: /文件目录1/
Disallow: /文件目录3/
Disallow: /文件目录5/
9、限制百度搜索引擎浏览某一特殊文件后缀方式的网页页面。
User-agent: *
Disallow: /*.后缀名方式(如.html、.htm、.php这些)
10、阻拦检索擎浏览网址特殊某一格式文件的文档(留意并不是网页页面)
User-agent: *
Disallow: /*.(文档布局:如gif、jpg这些)$
之上是一些常见的文件格式。实际的书写也要以每个网址要求而定。
写robots.txt也要留意下列一些难题:
1、robots.txt文件因而纯文档格式存有的txt文件。
2、robots.txt务必置放在网址的网站根目录中。顶部的robots.txt文件务必那样被浏览:如广州市seo网站写的robots.txt http://g.moonseo.cn/robots.txt
3、写robots.txt时要严苛依据之上英文大小写方式抄录
4、一般你的网址非常简单,那麼之上的文件格式充足你运用的了。如果较为巨大,必需浏览这儿而又多余浏览那里,阻拦这一文档又要允许那一个文档,允许浏览浏览含有“?”标识的特殊网页页面这些,那麼你必需协同之上文件格式详尽科学研究紧密结合于你网址的robots.txt文件书写。
5、robots.txt一般在某一分文件目录中还能够存有,可是如果与顶尖文件目录中的robots.txt有不一样,则以顶尖文件目录中robots.txt为标准。
6、仅当您的网址包含不期待被百度搜索引擎百度收录的內容时,才要运用robots.txt文件。如果您期待百度搜索引擎网站收录上所有内容,切勿建立 robots.txt文件,不必建立一个內容为空的robots.txt文件。这一点一般被大家粗心大意,事实上建立空的robots.txt文件对掠夺模块十分不友善。
7、如果你不想亲自动手写robots.txt文件,那麼请Google帮你写。登陆Google服务平台,有转化成robots.txt文件的。
8、
User-agent: *
Disallow: /
这类文件格式不仅仅是阻拦爬取网页页面,更关键的就是你的网址被百度收录了,随后又把robots.txt文件改动成之上布局,那麼你的网址将在百度搜索引擎中被删掉,全部地删掉。
9、元标示对一样平时的网址而言无关紧要,但是你或是得了解:
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>(不能允许爬取该网页页面,不能允许跟随该网页页面上的链持续续爬取)
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>(允许爬取该网页页面,允许跟随该网页页面上的链持续续爬取)
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>(允许爬取该网页页面,不能允许跟随该网页页面上的链持续续爬取)
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>(不能允许爬取该网页页面,允许跟随该网页页面上的链持续续爬取)
10、必需删掉一些被百度搜索引擎百度收录的特殊网页页面,参照
http://www.google.com/support/webmasters/bin/answer.py?answer=35301
好像如今仅有Google那么做。
关注不迷路
扫码下方二维码,关注宇凡盒子公众号,免费获取最新技术内幕!
评论0