robots爬虫协议怎么写?
robots.txt是网站根目录的一个文件,域名/robots.txt
robots.txt是网站根目录的一个文件,域名/robots.txt
它是搜索引擎蜘蛛抓取网站时,抓取的第一个文件
主要有以下作用:
1、对搜索引擎蜘蛛作出规定,允许它抓取或者不抓取某些信息
2、保护网站隐私,比如网站后台、用户信息等
3、节省搜索引擎的抓取资源,也就是让蜘蛛别太累
4、如果是动态链接和静态链接同时存在,可以禁止它抓取动态链接,只抓取静态链接,以便于统一路径,集中权重
5、注意,robots文件只针对站内链接
总之,它的存在就是为了禁止蜘蛛抓取网站内无价值的界面(无价值,是对于蜘蛛而言)
robots规则
allow:允许蜘蛛抓取所有网站链接,默认,不需要写,只要是前面没有disallow,那就是allow
disallow:禁止抓取-禁止抓取目录(文件夹),允许抓取图片
*,这个叫做通配符,指代所有,比如说User-agent *,意思是所有的蜘蛛,包括谷歌蜘蛛、百度蜘蛛、腾讯搜搜、搜狗、神马、360等等。
$,这个叫做终止符,意为抓取结束。如Disallow:/*.js$,意为抓取到js之后,就结束
sitemap:网站地图链接地址
规则细节:
1、首字母大写
2、要写的是英文状态下的冒号:并且冒号后面有一个空格
3、反斜杠/,如果是disallow :/ 代表不允许蜘蛛抓取整个网站
4、如果斜杆/后面加了空格,就像Disallow: / ab跟Disallow: /是一样的,都是禁止抓取整个网站
5、Disallow: / ab 跟Disallow: / ab*是一样的效果
6、Disallow: / ab/ 禁止抓取该文件夹 Disallow: / ab 范围更大
7、蜘蛛会遵循最详细的规则,比如
第一个:Disallow:/uploads/
第二个:Allow:/uploads/* .jpg
第二个更加详细,蜘蛛遵循这个规则
常见的robots规则:
1、用户/权限:用户注册登录、用户中心
2、wordpress
后台管理:Disallow: /blog/wp-admin/
动态路径:禁止动态路径的抓取:Disallow: /*?* ,相同的就保留,不同的用*代替
3、织梦dedecms
模板目录:Disallow: /templets/
插件目录:Disallow: /plus/
后台目录:Disallow: /dede/
4、搜索结果页
原因:重复或者质量较低的结果页
规律:域名?s=
写法:Disallow: /blog/?s=*