智能引擎：攻击失效与数据风险

智能安全运营的挑战

数字时代的背景下，数据和智能驱动的安全对抗，技术平台的自动化、智能化水平，愈发成为网络空间中攻防双方角力的重点。回归到攻防的战场上，我们希望能够得到的是一个能处理海量异构多源数据，快速检测、溯源和预测威胁事件，辅助安全团队进行分析、推理、处置的自动化安全运营平台。

本质上，安全运营中大规模数据分析的困难来自于攻守的不平衡性。 可持续的安全运营的目标是在合理的投入产出比下，持续的监控并降低企业和组织的系统安全风险。安全运营的目标不仅仅是在态势感知大屏上看到威胁趋势，而是真正要发现并处置真实威胁，例如进行针对高隐匿性、低频的高级威胁的威胁狩猎。

安全运营智能化，可借助人工智能和自动化编排等技术，有效升安全运营能力的自动化水平，降低威胁分析与响应的周期，减少对人力投入与专家经验的依赖，简化安全运营流程。

但在真实的网络空间中，敌暗而我明，智能安全运营需要大规模地采集多维度的数据进行分析，但处理海量数据给安全运营团队带来了前所未有的挑战，如依赖爆炸、告警疲劳、大海捞针（威胁）等难题，都可能是整个运营团队的梦魇。除此之外，技术瓶颈，专业人才匮乏，流程低可操作性等问题，都将降低安全运营的有效性。

以下，从网络安全运营关键实用性的角度，总结安全运营中大数据带来的关键技术挑战。

数据接入：数据膨胀与系统瓶颈

如前所述，一方面高级威胁低频且具有隐匿性，另一方面企业和组织需要持续进行风险管控。因此，为全面的评估系统风险，所需采集的数据种类多、数据规模异常庞大。以终端侧日志分析为例，图 2 展示了一个典型终端威胁检测处理系统的架构，涉及从数据采集、数据管理、威胁检测等多个环节。如果没有有效的预处理环节，单台用户主机的日常流量、终端行为日志量至少每天可达数百兆字节，更不用说供服务资源等功能性节点。不止是数据吞吐量大，为了满足合规需求，支持事件溯源、关联等威胁分析任务，所采集的数据往往需要长达数百天的持久化留存。这些数据的采集、传输、存储等给计算、网络、数据库等各个系统环节带来巨大的压力。其衍生后果就是，许多采集能力被禁用，大量数据在预设的价值判断策略下被前丢弃，这可能导致威胁线索和证据链的时效。数据爆炸所产生的这些现实问题成为 XDR（eXtended Detection and Response）等技术方案落地的关键阻碍。

数据融合：多源异构与本体建模

大规模数据分析需要终端侧、网络侧、沙箱侧、蜜罐侧的日志告警，以及威胁情报、知识库、IT资产、扫描的漏洞、HR信息等多源异构的数据，且依赖高层次数据模式的融合，一个典型的本体设计防范如图 3 所示 [3]。现阶段欠设计、低耦合、低交互的数据集成造成了数据爆炸，难以建立高质量的融合数据基础。多源多维数据规范化、本体化、体系化，始终是智能分析技术的基石。当前，各类不同厂商的网络安全设备执行不同的数据命名、标注策略，亟需在统一的语义下实现数据接口的统一规范化，以实现低成本的数据集成与交互。同时，多源异构数据中包含大量关联实体、重复实体，为实现这些数据实体的一致性关联分析，需要以全局的视角，将数据抽象本体化，设计体系化数据模型。例如，以图模型整体建模实体节点及实体间的交互行为，能够自然利用网络数据的关联属性，并进一步应用多种图分析策略与方法。

线索发现：召回模型与高误报率

传统基于静态规则的安全策略，难以快速应对高度产业化、武器化的攻击技战术快速演进。行为分析、意图分析、用户画像等技术，通过多维度的数据挖掘建立用户行为基线、取行为模式，能够有效弥补传统静态方法的不足。然而数据驱动的威胁线索识别，仍然逃不出高误报率的魔咒。以 ATT&CK （Adversarial Tactics, Techniques, and Common Knowledge）驱动的行为分析为例，该矩阵中的大部分攻击技术抽象都是召回策略驱动的。如下图所示，是 MITRE所跟踪观测的 93 个 APT组织利用次数最多的十种技术 [4]（该技术划分命名基于改版之前的 MITRE矩阵，尚未包含子技术的概念）。其中能够直接对应到攻击行为的技术描述，只有鱼叉式网络钓鱼（Spearphishing Attachment），凭证窃取（Credential Dumping）和文件混淆（Obfuscated Files）这三类，其他七类技术划分单独来看，都是正常网络行为与操作。ATT&CK的关键目标在于覆盖和召回，而从安全运营的视角来看，在事件规模膨胀的现状下，误报率是一个非常关键的有效性衡量指标。一项针对赛门铁克终端告警的分析表明，由 34 台机器触发的 58096 条告警中，与检测目标 APT29 行为相关真实告警只有 1104 条，告警的精度只有 1.9%。海量告警场景下高误报告警带来的误报疲劳，会最终降低整个安全运营团队的运转效率 [4]。

误报不止是召回模型的模型设计本身引入的，在机器学习的统计建模过程中，样本空间的不对称性，训练数据与实测数据的分布偏差等多方面的因素，会进一步导致模型预测性能在实际运行中的大幅衰减，同样会产生大量误报。

事件推理：语义模糊与依赖爆炸

安全事件日志是网络实体的高层次目标与具体行动的数据层次映射，具有潜在的行为层次语义化、结构化关联与逻辑依赖关系。仍以 ATT&CK驱动的威胁检测为例，通过阶段划分，给具体技术的归类赋予了一定的语义关联，为安全团队讲故事供了线索串联的范本。然而，从数据挖掘和关联的角度，有两个重要的问题需要考虑。第一个问题是一词多义，是指一个技术可能横跨多个战术实现，并以不同的粒度出现在一定的威胁上下文中 [5]。例如 T1053 定时任务（Scheduled Task/Job），包含在执行（Execution）、持久化（Persistence）和权（ Privilege Escalation）三个战术目标中。ATT&CK将 T1053 技术划定为一种统一的技术，并未针对具体战术进行细粒度的描述。这本质上是由 ATT&CK的技术抽象层次决定的，然而这给数据分析任务带来新的挑战⸺ 需要解决充分理解技术触发的上下文，并赋予该技术明确的战术语义。

第二个问题是依赖爆炸。这包含两个层次，第一个层次是 ATT&CK的战术模型不是因果模型，也不具有统计意义。我们可以从 MITRE供的 APT实例中看到具体的技战术执行数据流。然而，在实际检测、溯源分析中，技战术的跳转是矩阵中的多战术之间、单战术之内的多种技术方案的排列组合问题，在任何特定场景和实际环境中的高级威胁行为序列是独特的，规律性难以捕获。第二个层次是在细粒度的溯源数据层面（Provenance），现阶段的数据采集在一定的资源限制下，难以精细刻画信息传递流。像文件操作、网络输入、进程创建等，存在一对多、多对多的路径依赖问题。由于该层次数据的细粒度特性，依赖爆炸直接加剧了数据存储、检测、溯源等各个环节的技术难度。

人机协同：黑盒模型与低质交互

当前阶段，网络安全运营关键环节的决策主体仍然是人。安全运营平台需要建立与运营人员的沟通机制，以有效实现人机智能协同。如图 6 所示，基于深度学习等复杂不可解释的黑盒模型，以及低交互甚至无交互的人机交互流程设计，是人机协同机制构建的重要阻碍。在数据驱动的应用场景下，人工智能系统需要以足够透明、可解释的方式输出其判断逻辑和决策过程。不可信任的人工智能，显然不能够胜任任何对系统安全和人身安全攸关的关键性场景，这将大大降低其可用性和用范围 [6]。在网络安全运营的场景下，黑盒人工智能模型，所供的识别、检测结果，甚至是推荐策略，如果不能够供人能理解的、可供审计的判断解释依据，将无法被集成到自动化的运营流程当中去。

除此之外，需要有效的反馈接口、理解引擎，将人类的反馈信息融合到实时调整的模型参数和结构当中去。当前安全运营中心所依赖的 SIEM、SOAR 等平台，绝大部分都是被动的记忆模式⸺ 机械的记录输入的规则和历史剧本。这种低泛化或无泛化能力的机制无法有效实现真正的人机智能融合。