智能安全运营的挑战

数字时代的背景下,数据和智能驱动的安全对抗,技术平台的自动化、智能化水平,愈发成为网络 空间中攻防双方角力的重点。回归到攻防的战场上,我们希望能够得到的是一个能处理海量异构多源数 据,快速检测、溯源和预测威胁事件,辅助安全团队进行分析、推理、处置的自动化安全运营平台。

本质上,安全运营中大规模数据分析的困难来自于攻守的不平衡性。 可持续的安全运营的目标是在 合理的投入产出比下,持续的监控并降低企业和组织的系统安全风险。安全运营的目标不仅仅是在态势 感知大屏上看到威胁趋势,而是真正要发现并处置真实威胁,例如进行针对高隐匿性、低频的高级威胁 的威胁狩猎。

安全运营智能化,可借助人工智能和自动化编排等技术,有效升安全运营能力的自动化水平,降 低威胁分析与响应的周期,减少对人力投入与专家经验的依赖,简化安全运营流程。

但在真实的网络空间中,敌暗而我明,智能安全运营需要大规模地采集多维度的数据进行分析,但 处理海量数据给安全运营团队带来了前所未有的挑战,如依赖爆炸、告警疲劳、大海捞针(威胁)等难 题,都可能是整个运营团队的梦魇。除此之外,技术瓶颈,专业人才匮乏,流程低可操作性等问题,都 将降低安全运营的有效性。

以下,从网络安全运营关键实用性的角度,总结安全运营中大数据带来的关键技术挑战。

数据接入 :数据膨胀与系统瓶颈

如前所述,一方面高级威胁低频且具有隐匿性,另一方面企业和组织需要持续进行风险管控。因此, 为全面的评估系统风险,所需采集的数据种类多、数据规模异常庞大。以终端侧日志分析为例,图 2 展 示了一个典型终端威胁检测处理系统的架构,涉及从数据采集、数据管理、威胁检测等多个环节。如果 没有有效的预处理环节,单台用户主机的日常流量、终端行为日志量至少每天可达数百兆字节,更不用说供服务资源等功能性节点。不止是数据吞吐量大,为了满足合规需求,支持事件溯源、关联等威胁 分析任务,所采集的数据往往需要长达数百天的持久化留存。这些数据的采集、传输、存储等给计算、 网络、数据库等各个系统环节带来巨大的压力。其衍生后果就是,许多采集能力被禁用,大量数据在预 设的价值判断策略下被前丢弃,这可能导致威胁线索和证据链的时效。数据爆炸所产生的这些现实问 题成为 XDR(eXtended Detection and Response)等技术方案落地的关键阻碍。

数据融合 :多源异构与本体建模

大规模数据分析需要终端侧、网络侧、沙箱侧、蜜罐侧的日志告警,以及威胁情报、知识库、IT资 产、扫描的漏洞、HR信息等多源异构的数据,且依赖高层次数据模式的融合,一个典型的本体设计防 范如图 3 所示 [3]。现阶段欠设计、低耦合、低交互的数据集成造成了数据爆炸,难以建立高质量的融合 数据基础。多源多维数据规范化、本体化、体系化,始终是智能分析技术的基石。当前,各类不同厂商 的网络安全设备执行不同的数据命名、标注策略,亟需在统一的语义下实现数据接口的统一规范化,以 实现低成本的数据集成与交互。同时,多源异构数据中包含大量关联实体、重复实体,为实现这些数据 实体的一致性关联分析,需要以全局的视角,将数据抽象本体化,设计体系化数据模型。例如,以图模 型整体建模实体节点及实体间的交互行为,能够自然利用网络数据的关联属性,并进一步应用多种图分 析策略与方法。

线索发现 :召回模型与高误报率

传统基于静态规则的安全策略,难以快速应对高度产业化、武器化的攻击技战术快速演进。行为分 析、意图分析、用户画像等技术,通过多维度的数据挖掘建立用户行为基线、取行为模式,能够有 效弥补传统静态方法的不足。然而数据驱动的威胁线索识别,仍然逃不出高误报率的魔咒。以 ATT&CK (Adversarial Tactics, Techniques, and Common Knowledge)驱动的行为分析为例,该矩阵中的大部 分攻击技术抽象都是召回策略驱动的。如下图所示,是 MITRE所跟踪观测的 93 个 APT组织利用次数 最多的十种技术 [4](该技术划分命名基于改版之前的 MITRE矩阵,尚未包含子技术的概念)。其中能 够直接对应到攻击行为的技术描述,只有鱼叉式网络钓鱼(Spearphishing Attachment),凭证窃取 (Credential Dumping)和文件混淆(Obfuscated Files)这三类,其他七类技术划分单独来看,都是正 常网络行为与操作。ATT&CK的关键目标在于覆盖和召回,而从安全运营的视角来看,在事件规模膨胀 的现状下,误报率是一个非常关键的有效性衡量指标。一项针对赛门铁克终端告警的分析表明,由 34 台机器触发的 58096 条告警中,与检测目标 APT29 行为相关真实告警只有 1104 条,告警的精度只有 1.9%。海量告警场景下高误报告警带来的误报疲劳,会最终降低整个安全运营团队的运转效率 [4]。

误报不止是召回模型的模型设计本身引入的,在机器学习的统计建模过程中,样本空间的不对称性, 训练数据与实测数据的分布偏差等多方面的因素,会进一步导致模型预测性能在实际运行中的大幅衰减, 同样会产生大量误报。

事件推理 :语义模糊与依赖爆炸

安全事件日志是网络实体的高层次目标与具体行动的数据层次映射,具有潜在的行为层次语义化、 结构化关联与逻辑依赖关系。仍以 ATT&CK驱动的威胁检测为例,通过阶段划分,给具体技术的归类 赋予了一定的语义关联,为安全团队讲故事供了线索串联的范本。然而,从数据挖掘和关联的角度, 有两个重要的问题需要考虑。第一个问题是一词多义,是指一个技术可能横跨多个战术实现,并以不 同的粒度出现在一定的威胁上下文中 [5]。例如 T1053 定时任务(Scheduled Task/Job),包含在执行 (Execution)、持久化(Persistence)和权( Privilege Escalation)三个战术目标中。ATT&CK将 T1053 技术划定为一种统一的技术,并未针对具体战术进行细粒度的描述。这本质上是由 ATT&CK的 技术抽象层次决定的,然而这给数据分析任务带来新的挑战⸺ 需要解决充分理解技术触发的上下文, 并赋予该技术明确的战术语义。

第二个问题是依赖爆炸。这包含两个层次,第一个层次是 ATT&CK的战术模型不是因果模型,也不 具有统计意义。我们可以从 MITRE供的 APT实例中看到具体的技战术执行数据流。然而,在实际检 测、溯源分析中,技战术的跳转是矩阵中的多战术之间、单战术之内的多种技术方案的排列组合问题, 在任何特定场景和实际环境中的高级威胁行为序列是独特的,规律性难以捕获。第二个层次是在细粒度 的溯源数据层面(Provenance),现阶段的数据采集在一定的资源限制下,难以精细刻画信息传递流。 像文件操作、网络输入、进程创建等,存在一对多、多对多的路径依赖问题。由于该层次数据的细粒度 特性,依赖爆炸直接加剧了数据存储、检测、溯源等各个环节的技术难度。

人机协同 :黑盒模型与低质交互

当前阶段,网络安全运营关键环节的决策主体仍然是人。安全运营平台需要建立与运营人员的沟通 机制,以有效实现人机智能协同。如图 6 所示,基于深度学习等复杂不可解释的黑盒模型,以及低交互 甚至无交互的人机交互流程设计,是人机协同机制构建的重要阻碍。在数据驱动的应用场景下,人工智 能系统需要以足够透明、可解释的方式输出其判断逻辑和决策过程。不可信任的人工智能,显然不能够 胜任任何对系统安全和人身安全攸关的关键性场景,这将大大降低其可用性和用范围 [6]。在网络安全 运营的场景下,黑盒人工智能模型,所供的识别、检测结果,甚至是推荐策略,如果不能够供人能 理解的、可供审计的判断解释依据,将无法被集成到自动化的运营流程当中去。

除此之外,需要有效的反馈接口、理解引擎,将人类的反馈信息融合到实时调整的模型参数和结构 当中去。当前安全运营中心所依赖的 SIEM、SOAR 等平台,绝大部分都是被动的记忆模式⸺ 机械的 记录输入的规则和历史剧本。这种低泛化或无泛化能力的机制无法有效实现真正的人机智能融合。

智能引擎 :攻击失效与数据风险

人工智能自身的安全性问题,同样是安全运营智能化数据分析实践应用中不可回避的挑战之一。当 前针对人工智能模型与算法的攻击技术频出,通过对抗样本等手段可诱发错误的机器判断。结合安全语 义语法规则,对抗样本、对抗载荷能够绕过防护设备的检测与分析,甚至导致模型对实时基线的误判, 造成对正常业务的误杀。保证智能安全运营系统组件的安全鲁棒性,需要安全及数据分析团队在模型、 算法构建之初充分考虑。

此外,智能化引擎的训练、识别过程可能涉及企业安全运营中的个人隐私数据与企业敏感数据,攻击者可通过参数推断、模型窃取等技术手段实现数据盗取。因此数据安全性也已成模型落 地过程中的关键考量因素,以降低智能化技术引入的伴生数据风险。

参考资料

绿盟 AISecOps智能安全运营技术白皮书 2020

智能引擎 :攻击失效与数据风险相关推荐

  1. 开源项目推荐 | 中科院自动化所历时9年打造的类脑认知智能引擎“智脉”正式开源部署至OpenI启智社区

    ​人脑能够自组织地协同数百项认知功能,灵活适应复杂多变的环境.如何整合多尺度生物可塑性法则来构建具有生物合理性和计算高效性的神经网络模型是类脑人工智能和计算神经科学领域共同关注和面临的重要挑战. 中国 ...

  2. 2021爱分析・数据智能平台实践报告—重构数据智能时代的数据基础设施

    报告编委 报告指导人 黄勇 爱分析 合伙人&首席分析师 报告执笔人 洪逸群 爱分析 高级分析师 莫业林 戴甜 爱分析 爱分析 分析师 分析师 外部专家(按姓氏拼音排序) 方磊 九章云极 董事长 ...

  3. 【采用】机器学习在金融大数据风险建模中的应用

    本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构.采用T-L核模型替代RF模型中的传统决策树模型,将RF模型和T-L核模型结合, ...

  4. SuperSQL:跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

    导语:SuperSQL是腾讯数据平台部自研的跨数据源.跨数据中心.跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark.Hive等. 背景 SuperSQ ...

  5. 频谱知识图谱:面向未来频谱管理的智能引擎人工智能技术与咨询

    频谱知识图谱:面向未来频谱管理的智能引擎 人工智能技术与咨询 4天前 本文来自<通信学报>,作者孙佳琛等 关注微信公众号:人工智能技术与咨询.了解更多咨询! 1 引言 频谱管理是指综合运用 ...

  6. 虚拟专题:知识图谱 | 频谱知识图谱:面向未来频谱管理的智能引擎

    来源:通信学报 频谱知识图谱:面向未来频谱管理的智能引擎 孙佳琛, 王金龙, 丁国如, 陈瑾, 龚玉萍 陆军工程大学通信工程学院 摘要:针对当前频谱管理中表征方式较单一.管理方式对人的经验依赖性较强. ...

  7. 面向智能电网的电力大数据存储与分析应用

    面向智能电网的电力大数据存储与分析应用 崔立真1, 史玉良1, 刘磊1, 赵卓峰2, 毕艳冰3 1. 山东大学计算机科学与技术学院,山东 济南 250101 2. 北方工业大学云计算研究中心,北京 1 ...

  8. 使用联想智能引擎的电脑,将会懂你的心思

    刚到公司手忙脚乱急着找资料 电脑开机浪费十分钟: 盯一天电脑,眼干脖子疼 要是电脑能自动调节亮度该多好 -- 如果电脑能懂我在想什么就好了 说起这懂你心思的电脑,还真有! 联想创新科技大会Tech W ...

  9. 机器学习在金融大数据风险建模中的应用

    [摘要] 在互联网金融.消费金融的蓬勃发展的当下,央行征信在数据时效性.全面性和层次性上的短板日益凸显.深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模 ...

最新文章

  1. 了解C++默默编写并调用哪些函数
  2. DDD:用 “四色原型” 进行 “聚合设计”
  3. python内置函数用来打开或创建文件_2020年《python程序设计》基础知识及程序设计598题XS[含参考答案]...
  4. 最新版安全狗打狗棒法
  5. Linux按键输入实验(体验一下输入驱动,实际开发使用input子系统处理)
  6. 图灵登上英国50英镑新钞,AI之父荣耀比肩英国女王
  7. java 单文件上传_java – JIRA中的单个文件上传
  8. POI导出Word插入复选框
  9. LuoguP4233 射命丸文的笔记
  10. [渝粤教育] 西南科技大学 程序设计语言VB 在线考试复习资料(2)
  11. ref: 九大数据仓库方案特点比较
  12. 云计算平台是什么意思?可以划分为哪三类?
  13. java汉字的编码_Java中文编码问题小结
  14. 登录注册的业务逻辑流程梳理
  15. mysql error 1114_ERROR 1114 (HY000): The table 'test1' is full 的解决
  16. 多媒体-用windows自带录音机录音(转载)
  17. Java显示文件层级目录函数_[转载]文件和目录复制函数
  18. wx小程序工具下载及安装
  19. CGLib中类Enhancer介绍
  20. Ogre读取Ogitor的scene场景简介

热门文章

  1. Redis的分布式布隆过滤器是什么原理?
  2. Python 读取Excel文件并把相关信息@给相应的微信好友
  3. Jquery-validate无法验证,出现相应表单has no name assigned
  4. slam 学习之 AMCL 概念与原理分析
  5. mysql设置中奖率_设置中奖概率
  6. ICMP协议的ping和tracert应用
  7. Atmel开发出面向下一代物联网、工业和汽车应用
  8. 欢乐球球改分java_欢乐球球怎么玩分数高的窍门图解
  9. 程序员挑战电子厂之挑战失败,提桶跑路
  10. Oracle11g客户端安装与配置