智能安全运营

的挑战
数字时代的背景下,数据和智能驱动的安全对抗,技术平台的自动化、智能化
水平,愈发成为网络 空间中攻防双方角力的重点。回归到攻防的战场上,我们希望能够得到的是一个能处理海量异构多源数 据,快速检测、溯源和预测威胁事件,辅助安全团队进行分析、推理、处置的自动化安全运营平台。
本质上,安全运营中大规模数据分析的困难来自于攻守的不平衡性。 可持续的安全运营的目标是在 合理的投入产出比下,持续的监控并降低企业和组织的系统安全
风险。安全运营的目标不仅仅是在态势 感知大屏上看到威胁趋势,而是真正要发现并处置真实威胁,例如进行针对高隐匿性、低频的高级威胁 的威胁狩猎。
安全运营智能化,可借助人工智能
和自动化编排等技术,有效升安全运营能力的自动化水平,降 低威胁分析与响应的周期,减少对人力投入与专家经验的依赖,简化安全运营流程。
但在真实的网络空间
中,敌暗而我明,智能安全运营需要大规模地采集多维度的数据进行分析,但 处理海量数据给安全运营团队带来了前所未有的挑战,如依赖爆炸、告警疲劳、大海捞针(威胁)等难 题,都可能是整个运营团队的梦魇。除此之外,技术瓶颈,专业人才匮乏,流程低可操作性等问题,都 将降低安全运营的有效性。
以下,从网络安全运营关键实用性的角度,总结安全运营中大数据带来的关键技术挑战。

数据接入 :数据膨胀与系统瓶颈

如前所述,一方面高级威胁低频且具有隐匿性,另一方面企业和组织需要持续进行风险管控。因此, 为全面的评估系统风险,所需采集的数据种类多、数据规模异常庞大。以终端侧日志分析为例,图 2 展 示了一个典型终端威胁检测处理系统的架构,涉及从数据采集、数据管理、威胁检测等多个环节。如果 没有有效的预处理环节,单台用户主机的日常流量、终端行为日志量至少每天可达数百兆字节,更不用说供服务资源等功能性节点。不止是数据吞吐量大,为了满足合规需求,支持事件溯源、关联等威胁 分析任务,所采集的数据往往需要长达数百天的持久化留存。这些数据的采集、传输、存储等给计算、 网络、数据库等各个系统环节带来巨大的压力。其衍生后果就是,许多采集能力被禁用,大量数据在预 设的价值判断策略下被前丢弃,这可能导致威胁线索和证据链的时效。数据爆炸所产生的这些现实问 题成为 XDR(eXtended Detection and Response)等技术方案落地的关键阻碍。

数据融合 :多源异构与本体建模

大规模数据分析需要终端侧、网络侧、沙箱侧、蜜罐侧的日志告警,以及威胁情报、知识库、IT资 产、扫描的漏洞、HR信息等多源异构的数据,且依赖高层次数据模式的融合,一个典型的本体设计防 范如图 3 所示 [3]。现阶段欠设计、低耦合、低交互的数据集成造成了数据爆炸,难以建立高质量的融合 数据基础。多源多维数据规范化、本体化、体系化,始终是智能分析技术的基石。当前,各类不同厂商 的网络安全设备执行不同的数据命名、标注策略,亟需在统一的语义下实现数据接口的统一规范化,以 实现低成本的数据集成与交互。同时,多源异构数据中包含大量关联实体、重复实体,为实现这些数据 实体的一致性关联分析,需要以全局的视角,将数据抽象本体化,设计体系化数据模型。例如,以图模 型整体建模实体节点及实体间的交互行为,能够自然利用网络数据的关联属性,并进一步应用多种图分 析策略与方法。

线索发现 :召回模型与高误报率

传统基于静态规则的安全策略,难以快速应对高度产业化、武器化的攻击技战术快速演进。行为分 析、意图分析、用户画像等技术,通过多维度的数据挖掘建立用户行为基线、取行为模式,能够有 效弥补传统静态方法的不足。然而数据驱动的威胁线索识别,仍然逃不出高误报率的魔咒。以 ATT&CK (Adversarial Tactics, Techniques, and Common Knowledge)驱动的行为分析为例,该矩阵中的大部 分攻击技术抽象都是召回策略驱动的。如下图所示,是 MITRE所跟踪观测的 93 个 APT组织利用次数 最多的十种技术 [4](该技术划分命名基于改版之前的 MITRE矩阵,尚未包含子技术的概念)。其中能 够直接对应到攻击行为的技术描述,只有鱼叉式网络钓鱼(Spearphishing Attachment),凭证窃取 (Credential Dumping)和文件混淆(Obfuscated Files)这三类,其他七类技术划分单独来看,都是正 常网络行为与操作。ATT&CK的关键目标在于覆盖和召回,而从安全运营的视角来看,在事件规模膨胀 的现状下,误报率是一个非常关键的有效性衡量指标。一项针对赛门铁克终端告警的分析表明,由 34 台机器触发的 58096 条告警中,与检测目标 APT29 行为相关真实告警只有 1104 条,告警的精度只有 1.9%。海量告警场景下高误报告警带来的误报疲劳,会最终降低整个安全运营团队的运转效率 [4]。

误报不止是召回模型的模型设计本身引入的,在机器学习的统计建模过程中,样本空间的不对称性, 训练数据与实测数据的分布偏差等多方面的因素,会进一步导致模型预测性能在实际运行中的大幅衰减, 同样会产生大量误报。

事件推理 :语义模糊与依赖爆炸

安全事件日志是网络实体的高层次目标与具体行动的数据层次映射,具有潜在的行为层次语义化、 结构化关联与逻辑依赖关系。仍以 ATT&CK驱动的威胁检测为例,通过阶段划分,给具体技术的归类 赋予了一定的语义关联,为安全团队讲故事供了线索串联的范本。然而,从数据挖掘和关联的角度, 有两个重要的问题需要考虑。第一个问题是一词多义,是指一个技术可能横跨多个战术实现,并以不 同的粒度出现在一定的威胁上下文中 [5]。例如 T1053 定时任务(Scheduled Task/Job),包含在执行 (Execution)、持久化(Persistence)和权( Privilege Escalation)三个战术目标中。ATT&CK将 T1053 技术划定为一种统一的技术,并未针对具体战术进行细粒度的描述。这本质上是由 ATT&CK的 技术抽象层次决定的,然而这给数据分析任务带来新的挑战⸺ 需要解决充分理解技术触发的上下文, 并赋予该技术明确的战术语义。

第二个问题是依赖爆炸。这包含两个层次,第一个层次是 ATT&CK的战术模型不是因果模型,也不 具有统计意义。我们可以从 MITRE供的 APT实例中看到具体的技战术执行数据流。然而,在实际检 测、溯源分析中,技战术的跳转是矩阵中的多战术之间、单战术之内的多种技术方案的排列组合问题, 在任何特定场景和实际环境中的高级威胁行为序列是独特的,规律性难以捕获。第二个层次是在细粒度 的溯源数据层面(Provenance),现阶段的数据采集在一定的资源限制下,难以精细刻画信息传递流。 像文件操作、网络输入、进程创建等,存在一对多、多对多的路径依赖问题。由于该层次数据的细粒度 特性,依赖爆炸直接加剧了数据存储、检测、溯源等各个环节的技术难度。

人机协同 :黑盒模型与低质交互

当前阶段,网络安全运营关键环节的决策主体仍然是人。安全运营平台需要建立与运营人员的沟通 机制,以有效实现人机智能协同。如图 6 所示,基于深度学习等复杂不可解释的黑盒模型,以及低交互 甚至无交互的人机交互流程设计,是人机协同机制构建的重要阻碍。在数据驱动的应用场景下,人工智 能系统需要以足够透明、可解释的方式输出其判断逻辑和决策过程。不可信任的人工智能,显然不能够 胜任任何对系统安全和人身安全攸关的关键性场景,这将大大降低其可用性和用范围 [6]。在网络安全 运营的场景下,黑盒人工智能模型,所供的识别、检测结果,甚至是推荐策略,如果不能够供人能 理解的、可供审计的判断解释依据,将无法被集成到自动化的运营流程当中去。

除此之外,需要有效的反馈接口、理解引擎,将人类的反馈信息融合到实时调整的模型参数和结构 当中去。当前安全运营中心所依赖的 SIEM、SOAR 等平台,绝大部分都是被动的记忆模式⸺ 机械的 记录输入的规则和历史剧本。这种低泛化或无泛化能力的机制无法有效实现真正的人机智能融合。

智能引擎 :攻击失效与数据风险

人工智能自身的安全性问题,同样是安全运营智能化数据分析实践应用中不可回避的挑战之一。当 前针对人工智能模型与算法的攻击技术频出,通过对抗样本等手段可诱发错误的机器判断。结合安全语 义语法规则,对抗样本、对抗载荷能够绕过防护设备的检测与分析,甚至导致模型对实时基线的误判, 造成对正常业务的误杀。保证智能安全运营系统组件的安全鲁棒性,需要安全及数据分析团队在模型、 算法构建之初充分考虑。

此外,智能化引擎的训练、识别过程可能涉及企业安全运营中的个人隐私数据与企业敏感数据,攻击者可通过参数推断、模型窃取等技术手段实现数据盗取。因此数据安全性也已成模型落 地过程中的关键考量因素,以降低智能化技术引入的伴生数据风险。

参考资料

绿盟 AISecOps智能安全运营技术白皮书 2020

友情链接

CSA 隐私科技白皮书

数据接入 数据膨胀与系统瓶颈相关推荐

  1. 漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?

    作者 |友创云天 来源|http://t.hk.uy/bt5 数据湖概述 数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出.其比喻是:如果我们 ...

  2. Datav:从零开始的数据可视化大屏搭建系统

    本文首发于「Shopee技术团队」微信公众号 摘要 随着 Shopee 业务数据的不断扩大,仅通过表格这样的数据分析方式已经无法满足日常的数据分析需求,丰富的图表分析 Dashboard 就显得格外重 ...

  3. 基于物联网的数据接入与数据存储的一些思考

    基于物联网的数据接入和数据存储 一.边缘计算 边缘计算是指靠近物或数据源头的一侧,采用网络.计算.存储.应用核心能力为一体的开放平台.网络边缘侧可以是从数据源到云计算中心之间的任意功能实体,这些实体搭 ...

  4. 大数据工程师手册:全面系统的掌握必备知识与工具

    作者 | Phoebe Wong 译者 | 陆离 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 前言 如何才能成为一名真正的"全栈(full-stack)&quo ...

  5. 本地日志数据实时接入到hadoop集群的数据接入方案

    1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1.  整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...

  6. Android前端音视频数据接入GB28181平台意义

    技术背景 在我们研发Android平台GB28181前端音视频接入模块之前,业内听到最多的是,如何用Android或者Windows端,在没有国标IPC设备的前提下,模拟GB28181的信令和媒体流交 ...

  7. 如何查看文件是否为csv格式_Spark实战第二版(涵盖Spark3.0)第七章 从文件接入数据...

    关注公众号:登峰大数据,阅读Spark实战第二版(完整中文版),系统学习Spark3.0大数据框架!如果您觉得作者翻译的内容有帮助,请分享给更多人.您的分享,是作者翻译的动力! 本章涵盖了 解析器的常 ...

  8. 工业级大数据接入MQ消息发送异常性及最终一致性解决方案-DW商业环境实战

    版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客.QQ邮箱地址:1120746 ...

  9. 星火计划 | Apache InLong一站式大数据接入平台沙龙火热报名中

    导语:随着数据的增长以及业务场景的多元化,消息中间件已经成为IT架构中不可或缺的组件.它可以降低系统间的耦合性与复杂度,提升系统稳定性,为大数据时代的数据采集提供巨大助力. 腾讯大数据在2013年自研 ...

最新文章

  1. 兼容性—IE6/7下带有overflow:hidden属性的父级元素包不住带有position:relative属性的子元素...
  2. secureCRT常用设置
  3. Linux Ubuntu 安装编译Opencv 3.4.3 C++开发环境
  4. 深度学习(四十一)cuda8.0+ubuntu16.04+theano、caffe、tensorflow环境搭建
  5. vmware安装黑苹果教程
  6. 【题解】【A % B Problem(P1865)】-C++
  7. 丢失Android系统库或者Conversion to Dalvik format failed with error 1错误的解决
  8. 【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 算法流程 | 算法示例 )
  9. 【免费】搜狗站长URL自动推送工具1.4.1
  10. Linux的磁盘配额设置
  11. 演示固态硬盘装win11系统教程
  12. [NOI2015]小园丁与老司机,洛谷P2304,恶心的建图+有源汇上下界最小流
  13. 仿 Hola桌面 Launcher 定制 滑动文件夹 之 拖动分析
  14. 自定义chrome新标签页
  15. Fatal error loading the DB: Permission denied. Exiting.
  16. 语音信号调制matlab,第二章 语音信号的数字模型 数字语音处理及MATLAB仿真 教学课件.ppt...
  17. R语言使用cph函数和rcs函数构建限制性立方样条cox回归模型、使用ggcoxzph函数可视化进行Schoenfeld残差图检验模型是否满足等比例风险
  18. 科学数学工程工具MATLAB软件2023a中文版下载安装,MATLAB特色
  19. fabric多节点网络环境搭建(v2.2)
  20. 未来科幻点击解谜游戏《英科迪亚》现已登陆NS

热门文章

  1. [C]链栈的基本知识点、基操(初始化、入栈、出栈、遍历等)图文结合!!!!
  2. 共享纸巾杀来!免费领取从此不用再买纸巾了...
  3. 微信支付APIV3完整Demo,可直接使用,适用于(H5、JSAPI、H5、App、小程序)
  4. OpenGL蓝宝书源码学习(五)第三章——Blending.cpp
  5. 运筹系列60:TSP问题数据
  6. 九城今晚关闭魔兽世界 四年来首次全线停服
  7. JavaScript:实现CaesarsCiphe凯撒密码r算法(附完整源码)
  8. 基于MATLAB机器视觉的水果品质检测
  9. java比较两个word差异_[转载]java在线比较两个word文件
  10. FX5U DRVMUL指令多个轴的表格运行