DJ前段有篇文章《为什么基于机器学习的产品很难见到?》http://www.sec-un.org/machine-learning-products-1.html
谈了很多客观的现状,机器学习通过采集样本,抽取特征(机器学习人工干预、聚类、分类),预测异常或攻击。针对APT攻击及内部异常行为,机器学习是发现未知攻击或异常的最重要手段。但就如文章谈到的,机器学习在信息安全行业应用其实还有很长的路。
原文“如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。”
借用DJ的ppt一副图。
5W1H是异常行为分析的基本模型,下面简要翻译了下interset关于基础数据的分析方法,主要以文件为例,描述了“what”的分析方法。
做了大致翻译。(感谢同事GH的翻译)
阶段1:初始化重要文件, 建立重要文件得分模型
- 按照文件类型归类,像*.xls表格,*.c, *.cpp, *.jsvs代码源文件
- 按照文件位置,像源码存储位置、需要权限才能访问的位置
- 按照作者或所有者,像从CFO或HR部门流出的文件
- 根据文件属性、元数据分类,像一些被标记为机密、仅内部传阅的文件
举例:所有来自CFO的*.xls文件
-
阶段2.综合人的直觉和机器学习,建立优化模型
根据观察到的行为和反馈,根据不同行业需要,调整文件重要性得分,提取出重要的文件、更重要的文件,分类不重要的文件,补充缺少的内容,使计分更为精确。这里实质谈的是“机器学习人工干预”
阶段3.根据发现的行为,实时预测风险,建立预测模型
在拥有文件重要性排名后,就可以提取出重要文件的共同点,并发现更多重要文件。
Interset平台使用的方法是以文件元数据(文件名、文件位置等描述文档的信息),以及行为信息(文件创建者、年龄、谁打开过文件、哪个软件创建或修改了文件,文件内容的来源以及文件是如何被分发传递的…)作为潜在决定性标记。例如,我们可以检查:
- CFO每个季度最后一个星期创建的Excel表格
- HR部门标记为机密的Word文档
- 任何通过Outlook传给CEO阅读的文件
- 开发人员使用Visual Studio创建的所有.c文件
分群模型可以根据已知重要文件的共同点归类,发现并预测出更多重要文件
结束语:从当前的实际看,充分了解用户的业务场景,序列、关联做好的话效果其实很好,很多需求都到不了聚类、分类的数据挖掘等。后面再谈谈关联分析。
现在大部分产品只能提供一些粗放型的结果, 可以参考一下国外的DLP产品, 其最终结果也是基于”计数”的