SEO之robots.txt爬虫协议

SEO之robots.txt爬虫协议

Robots.txt即爬虫协议,是搜索引擎蜘蛛进入网站第一个寻找的文件,它告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

当我们网站出现错误页面,或者某些页面不想让蜘蛛爬取时,合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站,首先查找网站根目录下是否存在robots.txt文件,若存在,则按照该文件的规范抓取内容;若不存在该文件,则按照默认的规则爬取网站中所有网页。因此,本文介绍一些robots语法和常用实例。

网站设置robots.txt的好处:禁止搜索引擎收录部分页面;引导蜘蛛爬网站地图;能够一定程度上保护网站安全;节省流量等。

Robots基本语法:

  1. 定义搜索引擎:User-agent。
  2. Disallow 禁止爬取。
  3. Allow 允许。默认情况下,都是允许的。例如:禁止admin文件夹下的所有文件,除了.html的网页。如果用Disallow一个一个的禁止,太浪费时间了。此时用Allow就解决这个问题
  4. $ 结束符。例:允许所有的以.html结尾的文件。不管前面有多长的URL,只要以.html结尾都允许
  5. * 通配符符号0或多个任意字符。例:屏蔽所有的动态URL
  6. Sitemap 声明网站地图。
  7. 根据UA分组

 

注:

robots.txt文件存放在网站根目录下。

文件名所有字母都必须小写(robots.txt)。

sitemap声明、通配符(*、$)等为Google专有,非RFC标准,

 

参考文档

https://www.robotstxt.org/robotstxt.html

https://developers.google.com/search/reference/robots_txt

分享到:
赞(0)

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址


版主资源网是全网最大的免费网络资源搜集分享平台,提供破解版免费软件程序下载,免费下载破解版辅助工具,原创图文、视频技术教程阅读下载服务。