慧眼看世界 - 一个值得收藏的网站
命名规则及存放路径:robots文件必须存放在网站根目录,命名为:robots.txt
怎么写robots?这个是重点!首先搞清楚书写robots用到的3个符号:
* 代替0或者任意多的字符
$ 结束符号,圈定以xxx结尾的文件
? 动态页面专用
接下来robots的书写格式:
每行的首字母都大写
必须使用英文输入法书写
(注意)User-agent , Disallow , allow后面跟英文的冒号再加空格然后才能继续书写。
Robots示例:
User-agent: * robots规则对所有搜索引擎蜘蛛生效
Disallow: / 禁止搜索引擎收录
Allow: / 允许搜索引擎收录
Disallow: / 整个网站禁止搜索引擎收录
Disallow: /admin/ 这里是禁止爬行admin目录下面的目录
Allow: /tmp 这里是允许爬寻tmp的整个目录
Disallow: /a/*.htm 禁止访问a目录下的所有以".htm"为后缀的文件(包含子目录)。
Allow: .htm$ 允许访问以".htm"为后缀的文件
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
最后,做完必须去百度站长平台测试robots.txt是否有效。
文章编辑:神目
版权所有:未经允许禁止转载!
本文链接:https://www.sxlog.com/post/670.html
粤ICP备5189886号 | | sitemap