“数据驱动安全”之(2)谈谈数据分析这点事

    DJ前段有篇文章《为什么基于机器学习的产品很难见到?》http://www.sec-un.org/machine-learning-products-1.html

    谈了很多客观的现状,机器学习通过采集样本,抽取特征(机器学习人工干预、聚类、分类),预测异常或攻击。针对APT攻击及内部异常行为,机器学习是发现未知攻击或异常的最重要手段。但就如文章谈到的,机器学习在信息安全行业应用其实还有很长的路。

    原文“如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。”

借用DJ的ppt一副图。

 

  5W1H是异常行为分析的基本模型,下面简要翻译了下interset关于基础数据的分析方法,主要以文件为例,描述了“what”的分析方法。

做了大致翻译。(感谢同事GH的翻译)

阶段1:初始化重要文件, 建立重要文件得分模型

  • 按照文件类型归类,像*.xls表格,*.c, *.cpp, *.jsvs代码源文件
  • 按照文件位置,像源码存储位置、需要权限才能访问的位置
  • 按照作者或所有者,像从CFO或HR部门流出的文件
  • 根据文件属性、元数据分类,像一些被标记为机密、仅内部传阅的文件

举例:所有来自CFO的*.xls文件

  • 阶段2.综合人的直觉和机器学习,建立优化模型

        根据观察到的行为和反馈,根据不同行业需要,调整文件重要性得分,提取出重要的文件、更重要的文件,分类不重要的文件,补充缺少的内容,使计分更为精确。这里实质谈的是“机器学习人工干预
     

    阶段3.根据发现的行为,实时预测风险,建立预测模型

    在拥有文件重要性排名后,就可以提取出重要文件的共同点,并发现更多重要文件。
    Interset平台使用的方法是以文件元数据(文件名、文件位置等描述文档的信息),以及行为信息(文件创建者、年龄、谁打开过文件、哪个软件创建或修改了文件,文件内容的来源以及文件是如何被分发传递的…)作为潜在决定性标记。

    例如,我们可以检查:

  • CFO每个季度最后一个星期创建的Excel表格
  • HR部门标记为机密的Word文档
  • 任何通过Outlook传给CEO阅读的文件
  • 开发人员使用Visual Studio创建的所有.c文件

分群模型可以根据已知重要文件的共同点归类,发现并预测出更多重要文件

结束语:从当前的实际看,充分了解用户的业务场景,序列、关联做好的话效果其实很好,很多需求都到不了聚类、分类的数据挖掘等。后面再谈谈关联分析。

1人评论了““数据驱动安全”之(2)谈谈数据分析这点事”

  1. 现在大部分产品只能提供一些粗放型的结果, 可以参考一下国外的DLP产品, 其最终结果也是基于”计数”的

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注