薄荷派 2006-9-2 07:45 PM
我对一些杀软评测结果的部分看法
这里只是我发贴这时点为止的部分看法:
从推断统计的角度看,所有只拿有害文件做样本(而不是根据实际正常文件和有害文件出现的比例组合成样本包)给杀软扫,出来的结果全是杀软不犯第一类错误的能力,也就是例如KASPERSKY有96%的可能不会把病毒漏过的能力.而知道统计功效理论的都知道,全面评价至少还要给出不犯第二类错误的能力,也就是对正常文件不误报成病毒(或者还包括不把这个病毒误报成别的病毒)的能力.这样两个的综合才完成推断统计的一个完整结论.(始终说是推断统计是因为目前没有哪个测试的样本库能够说包括了世界上所有的已知病毒.而且,如果是根据对某个时点杀软对已知病毒的查杀功率来评估杀软在可预见的将来对新出现的病毒的查杀功率,那更是一种推断统计)....
这是杀软评测第一个不完善的地方.或许有些杀软评测考虑了这方面因素,但从公布的结果来看还是没有体现出来.事实上,要做到将正常文件和有害文件按一定比例组合成样本包在实际操作中也是很复杂的,中间要考虑的因素还有很多,可能操作在目前情况下会受到资源的限制.
第二个就是,杀软查杀能力评测就是拿一个样本包让所有杀软扫描,给出结果例如99%排第一,98%排第二,这就是依据点估计来排名.根据点估计的结果,第一和第二的真实差距从理论上还是无法评价的.还是从统计学角度,只有给出区间估计,例如根据对多个(一般N>30,根据目前的已知病毒数,这个不难)样本集合(假设每个集合中都包含1000个随机组合的有害文件)的检测结果得出如KASPERSKY有95%的可能对任意1000个病毒能查出990正负5个样本的结论----也就是KASPERSKY查100次每个1000个有害文件的样本包,有95次能查出的有害文件数在985~995个样本之间.这样的区间估计得出的每个杀软的不同结果,可以用每个杀软检测的区间上下限来判断两个杀软的查出能力在95%的置信度下是否有明显的差距.具体稍微看下基础的统计知识就可以知道.
我属于不太了解杀软评测的详细具体步骤的人,我也知道杀软检测有特殊性,但我从给出的结果来看,没办法看出有ALPHA,BETA两种错误的评估.没能看出是区间估计的结果.所以,这些结果能代表的事实对我来说就是,根据他们的做法和采用的数据,我如果完全照做一遍,理论上能得出相同的实验结果.也就是可重复性....至于根据测出的结果再做的推断,尤其是谁好谁坏,谁第一谁第二的推断,都缺乏推断依据.杀软评测给的就是一个实验数据,至于这些实验代表什么,如何采用,(有时候还包括要检测实验方法是否科学,如一些对启发式的检测方法),都在于我们自己.你可以根据时间序列做某杀软的纵向数据比较,也可以把这些不同时间的结果当作某一个大时间段内的几次抽样结果(虽然那不够严谨),根据这些稍微牵强地得出个大致判断,我个人感觉还可以接受.但至少直接拿几次的结果说哪个杀软好哪个杀软坏依据不足,直接拿几次查杀率排序直接推断到谁排第一谁排第二依据不足.
以上是我的看法.所以我对这些评价认为可以参考,但不能绝对说明排名问题.也就是说,不能根据在这些检测中的排序,直接得出杀软的查杀能力排名,更不能说明杀软完整的能力.
PS:这是我的个人看法,不用因此改变你的看法....对搞评测的人来说,如果行规就是这么做,那么或许也只要这么做就可以了,忽忽.
[[i] 本帖最后由 薄荷派 于 2006-9-2 07:47 PM 编辑 [/i]]
alphabeta 2006-9-3 10:38 AM
说的很具体 也很清楚~~~ 不愧是薄荷~~~
rendong 2006-9-3 02:16 PM
拜读了,可以投个稿啦
conceicao 2006-9-3 09:45 PM
对统计学还没有系统研究过 不乱顶 而且对AV的兴趣也不如FW HIPS大
不过我会多花时间看这篇帖子的
8481184 2006-9-4 08:39 AM
#llm11一切为了商业利益而动的东西可信率的折扣率大家都知道。#llm25
alphabeta 2006-9-5 09:23 PM
不发言是不发言 一出声就语出惊人
CAUSLL-ARM454 2006-10-21 01:51 AM
有一种东西叫公关
傲气雄鹰 2006-10-21 08:34 PM
[quote]原帖由 [i]Xie[/i] 于 2006-9-4 08:17 AM 发表
薄荷原创千字文,里面有很多统计知识喔#llm11 [/quote]
可以肯定薄荷是统计专业毕业的#llm14
meyouhe1980 2008-2-9 09:59 PM
才女。。。。。。。。。。#llm23