前言
最近在写代码,涉及了web爬取链接的方面,在百度过程中了解到了这篇文章:superSpider,突然就好奇平时常见的爬虫 工具和扫描器里的爬虫模块能力如何,所以来测试下。
主要测试1个自己手...
前言
最近在写代码,涉及了web爬取链接的方面,在百度过程中了解到了这篇文章:superSpider,突然就好奇平时常见的爬虫 工具和扫描器里的爬虫模块能力如何,所以来测试下。
主要测试1个自己手写的瞎眼爬虫,还有crawlergo、rad、burpsuite pro v202012、awvs 2019
文章里推荐的http://demo.aisec.cn/demo/站点打不开了所以就使用awvs的了;
测试站点:http://testphp.vulnweb.com
一 手写的基准爬虫
只抓取a标签下的href和script标签下的src;
结果:
46个链接,夹杂着很多其他域名的链接,有很多带参数的链接
二 crawlergo爬取
在官方示例代码上加了几行
结果:
48条
清洗后:
3 rad 爬取
结果:42条 , 由于存在get和post的区别,清洗后去重为39条
4 burpsuite v202012
爬取较耗费时间,截图的时候是49个,但是随着时间增加数量还在上升,在后面回看的时候数量已经一百多了
五 awvs
扫描相对burp很快,不知道是不是自家网站缘故,扫描结果数量405,但是很多都是Mod_Rewrite模块下的
六 比较
由上所有数据可以看出,awvs和burpsuite爬取的数据量是属于最多的一层的,crawlergo和rad和我手写的爬虫好像是一层。。仅数据量来说。。
再看下数据质量,这里我主要看手写的爬虫(下面称为基准),和rad 、crawlergo
首先,我们先把基准数据和rad的数据比较
先取交集,
存在17个交集数据,各自减去交集后的数据,排序,对比
细心查看的话会发现中间那栏基准数据基本path基本都能在左边交集栏查看到,而右侧rad栏黄色部分基本都是左侧即基准数据里没有的。本人查看了前面的burpsuite和awvs报告,他们多出的部分基本都是目录下的,这边基准爬虫和rad里都存在了这个目录。
再看下基准与crawlergo比较
存在18个交集
依然是右侧有的左边基本都没有,但是左右那几个details目录右侧也没有发现
看下crawlergo与rad的比较
惊人的相似-_- ,
七 简单的总结
几款工具都扫描出了手写代码里没扫除的目录、路径,其实力都是蛮强的。
其中,crawlergo和rad扫描的数量和质量类似,burpsuite和awvs的扫描结果类似,都是数量最多,但是burpsuite的扫描速度个人感觉有点慢
当然,数量多少的问题是由于burosuite和awvs存在系列安全扫描及其他用途的缘由,对于纯粹只为获取url的话还是得靠crawlergo和rad方便些。
crawlergo和rad的区别存在crawlergo返回的数据中包含了所有headers,包括其自动填充的表单数据,rad返回的只有请求方法+url,如Get http://xxx
最后自己做了一张表,仅代表自己观点,也不一定准确
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/7302.html