Robots 文件分析

获取并解析网站的 robots.txt 配置

关于 Robots.txt

  • • robots.txt 是放置在网站根目录的文本文件
  • • 用于告诉搜索引擎哪些页面可以抓取,哪些不可以
  • • User-agent 指定适用的搜索引擎爬虫
  • • Disallow 指定禁止抓取的路径
  • • Allow 指定允许抓取的路径(覆盖 Disallow)
  • • Sitemap 指定网站地图的位置

示例:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /

Sitemap: https://example.com/sitemap.xml