Robots.txt 配置

设置爬虫规则并生成标准格式的 robots.txt

快捷模板:

robots.txt 说明

  • • robots.txt 文件用于告诉搜索引擎哪些页面可以抓取
  • • 文件应放在网站根目录,如 https://example.com/robots.txt
  • • User-agent: * 表示对所有爬虫生效
  • • Disallow: / 表示禁止抓取整个网站
  • • Allow: / 表示允许抓取整个网站
  • • 注意:robots.txt 只是建议,恶意爬虫可能不遵守