现在网上流传的大数据安全文章总是给你一个印象,只要有了大数据,未知威胁就会自动跳到你眼前,做出针对性防御只是举手之劳。
大部分信息安全从业者在过去十年中,太依赖于类似杀毒软件和IPS之类的工具发现已知威胁,以至于已经形成思维定式,对未知威胁颇有无从下手的感觉。安全行业迫切需要一剂神药,而大数据安全的出现恰到好处,于是瞬间就变成精神寄托。
于是,你说服企业领导部署了非常完善的大数据平台,采集了网络流量终端日志等所有数据,集成了云上的超大信誉库,也订阅了各大厂商的威胁情报,可视化十分出色,查询都是毫秒级的反应,提供无穷无尽的关联和钻取信息。然后,你会突然发现,未知威胁还是藏在海量数据和复杂图表里,大海捞针,只见森林,或者套用美国用户常用来描述大数据和未知威胁关系的一句话a needle in a haystack,你依然不知从何下手。
想让Splunk告诉你如何发现未知威胁?好吧,你自己已经是个安全专家了,那你还需要先变成一个数据科学家,还需要提高编写程序的能力,貌似是个不太可能完成的任务?
于是,业界又造出个新职位名词:安全分析师。集安全知识、数据挖掘、程序编写能力于一身,完美利用大数据平台发现威胁。总算看到曙光,大家又抓住一根救命稻草。
可是,这样的人才在市场上找得到吗?
不要以为你在BAT3,手握大把预算就能轻松雇到。当你的股票期权不再有诱惑力,辛辛苦苦培养3年的安全分析师离开公司加入创业大潮,团队分崩离散时真是会欲哭无泪。如果你觉得公司发展正处于高峰,放松警惕,认为这种担心为时尚早,那就看看B的股票最近大跌,以及3的窘境吧。
如果你身在行业,那趁早断了雇佣安全分析师这份念头吧。即使市场上有些没被BAT3和创业公司挖走的人才,那也在安全厂商里窝着,努力提升自己,期望可以跳到更大舞台上呢。
让我们回头来看看上一波数据分析浪潮。关联和钻取等名词,已被滥用五六年,早几年前开始每篇提到安全的文章里就都会不痛不痒地出现。实际情况是,这些年来,安全业内到底培养出多少个可以熟练运用关联和钻取的人才?现在企业为了归纳总结专家规则需要付出多大成本雇佣外部专家?如果真的无往而不利,那SIEM/SOC还会落到如今地步吗?厂商说,关联和钻取不好用,那是因为数据小。套个大数据的帽子,又满血复活拿来再忽悠三年。那请厂商先来说说手里有几个能写关联规则的数据分析人才储备。
再看看态势感知平台,它会告诉你未知威胁在哪里吗?弱口令、开启危险端口、应用漏洞等等,能帮助你提出问题吗?不会,它们是潜在风险,需要立即改正。态势,只能用来呈现已知风险和威胁,确实可以提升企业整体安全水平,但它不是万能的,并不能发现未知威胁。
没有办法了吗?让我们来分析一下安全分析师的作用,看看有没有替代解决方案。
安全分析师的能力,在于根据知识背景,借助大数据平台,使用自己数据分析的能力,提出可以定位未知威胁的正确问题。
没有问题,怎么会有答案?你需要一条线索,才能总结出正确的问题,才能在大数据平台中寻找答案。
所以,发现未知威胁,你需要一条线索。
线索是未知威胁留下的痕迹,是入侵造成的异常。
如果你发现一个异常,无论是恶意域名或疑似木马,还是疑似盗取数据的行为,那么你就有了一个起始点,也许这时候你并不知道面对的是什么样的威胁,或者根本就不是威胁,但至少可以深入调查。如果线索质量高,十有八九你真能很快定位一次入侵。
如果安全分析师过于稀少,难以获取,那我们需要如何解决呢?
显然地,如果有一个工具,能够替代分析师,自动从海量数据里分析出未知威胁的线索,那上述困境自然会迎刃而解。
这就是现在全球安全行业发展的趋势。安全分析师是普遍稀缺的,不只是在中国。于是,人工智能分析海量数据,利用机器学习框架,定义正常基线,使用数据挖掘算法侦测异常,聚类/分类,行为分析,等等,就成了目前来看唯一可行的办法。如果有一组引擎,可以内置到SIEM、大数据分析平台,甚至前置到客户端,时时分析异常,提供线索,那便可以显著提升应对未知威胁的防御能力。
我们的努力目标就是让此类引擎可以被广泛获取。
题外话,笔者接触到威胁情报后就一直在想,威胁情报,跟病毒库更新、IPS特征更新、防火墙策略更新等等,到底有什么区别?如果仅仅是订阅更新规则,那对威胁防御有什么创新性的改进,有必要这么大张旗鼓吗?
威胁情报,实际上也包含了上文所提的线索的概念。例如,攻击者有能力使用exploit kits如Angler、Nuclear、Cobalt Strike等,生成不同的免杀恶意软件,利用不同的通信信道,而杀软都需要捕捉到样本才可以应对,可等到采集好样本、完成分析、推送规则,入侵和盗取数据早就不知道成功多久了,这些都不是传统简单更新规则能应付的。而通过分析exploit kits生产的威胁情报,可以帮助提供线索,如提取木马家族的相似特征,利用数据挖掘的分类算法识别疑似木马等。还例如提供入侵行为模式线索等。
所以,上面所说的人工智能引擎,同样可以用于威胁情报生产。
今天就谈到这里,以后再逐步分开聊聊如何从各个方面去分析数据得到线索的具体实践。