日前,数据安全领域的人工智能算法顶级赛事“CCF大数据与计算智能大赛·数字安全公开赛”圆满落幕。

奇点云数据安全团队DataBlack大数据平台安全事件检测与分类识别赛题夺得冠军

奇点云算法工程师:阿铮、步方

评委:清华大学计算机系研究员 陈康(右一)

CCF BDCI数字安全公开赛由中国计算机学会主办,大数据协同安全技术国家工程研究中心和CCF BDCI组委会联合承办。(CCF Big Data & Computing Intelligence Contest,即中国计算机学会大数据与计算智能大赛,简称CCF BDCI。)

大赛聚焦数字安全领域的算法需求,提出“真问题”,给出“真数据”。自启动以来,共吸引了1582支战队报名参赛,四道赛题提交成果模型总数达5333次。决赛答辩现场,来自中科院、国家信息中心、清华大学等产学研各界的20多位专家评委,与来自海内外高校、企业、研究院的极客选手们齐聚,群雄逐鹿,共享这场“最强算法”盛宴。

北京科技大学计算机与通信工程学院教授、博导、中国计算机学会高级会员、中国计算机学会计算机安全专委会执行委员、颁奖致辞嘉宾陈红松这样评价奇点云DataBlack参赛队伍:“巧妙运用transformer技术,取得了很不错的效果,同时对业务场景也有很好的总结,落地性强。”

*“DataBlack”队名取自奇点云数据安全引擎DataBlack,下文代指本次参赛队伍。

一、赛题拆解:“行为基线与“事件识别”双任务

面对大数据平台数据泄露、滥用或不可用等风险,基于大数据平台日志、平台网络流量等多源异构数据进行分析,可有效实现攻击行为的发现或预测,帮助保护企业数据安全。

在上述背景下,赛方针对“大数据平台安全事件检测与分类识别”一题提出如下要求:

根据赛方提供的无标签大数据平台日志数据,参赛队利用机器学习、深度学习、UEBA(User Entity Behavior Analytics,用户实体行为分析)等人工智能方法,构建系统用户使用大数据平台的行为基线和数据安全事件识别及分类模型。

可见,本赛题应拆解为两大子任务:

  • 行为基线:捕捉用户在平台的正常行为模式形成基线,平台方可将实时操作分布与基线进行对比,直观识别偏离程度,以便分析判断。对于本赛题,也就是以日志数据为训练样本,推理出行为基线,绘制出行为模式的概率密度分布曲线,其本质上是一个时序预测的子任务。
  • 事件识别:针对大数据平台(数据中台、数据云平台、数据仓库等),有六类常见的异常攻击事件,包括SQL注入攻击、差分攻击、重标识攻击、数据删除攻击、数据泄露攻击、加密勒索攻击。参赛模型应能快速地从日常事件中发现(识别)并分类异常。

二、成果速览:“异常攻击事件检测模型”,他们这样做

奇点云DataBlack团队将本次赛事的成果简称为“异常攻击事件检测模型”,它是一种兼顾攻击事件分类识别和基线行为预测的多任务深度学习模型,不仅能检测攻击事件发生的时间段、攻击事件类型,还能通过对比基线预测的正常行为与实际异常攻击行为,解析攻击事件的独特表现,增强模型的可解释性,为进一步的攻击反制策略做前置准备

以SQL注入攻击为例:

SQL注入攻击一般指异常用户在事先定义好的查询语句结尾添加额外的SQL语句,以欺骗数据库服务器执行非授权的任意查询(把用户输入的数据误视为代码来执行,而未作校验)。具体而言,异常用户可能通过SQL注入攻击来请求获取数据库函数,并在获取函数后的短时间内开始获取大量的库表结构及具体的表内容。

这种异常的时序段行为从单个时间点来看,操作是正常的,但模型能够发现时序段的上下文关联性异常,在时序编码特征空间中,异常时序点的编码明显偏离了正常时序簇,从而完成异常事件的分析及识别。

谈及异常攻击事件检测模型的设计思路,队长步方介绍:“通过数据分析,我们探查到了赛方提供行为日志的强周期性,于是很快敲定了采用长时预测模型Autoformer(这是当时对周期信号拟合效果的SOTA model)作为时序信号的编码器和解码器。”

“为了同时完成识别分类、基线预测双任务,共享时序编码相关参数,我们在编码器后加入分类器做分类,解码器做回归。进一步,注意到基线预测的强上下文关联性、时序性,我们对异常指令做离群检测,创新性地采用DTW-F1的指标来衡量基线预测的准确性。”

最终,奇点云异常攻击事件检测模型在安全事件识别分类、行为基线预测两大任务中都有优异表现,准确度及效率均满足期望:

  • 事件识别分类:基于赛方提供的评估方法Macro-F1(一种综合准确率、召回率的指标,把注意力集中在数据集而非仅在单个类别上,能有效衡量分类器性能),取得0.8756的分数,处于各参赛团队中的第一位。

  • 行为基线:因赛方未提供基线的评估要求,DataBlack团队采用了Macro-DTW-F1指标自评。该指标更注重上下文关联性事件的准确性(而非着重关心单个指令发生在此时间节点的合理性),更匹配行为基线预测场景,最终评分为0.9467。

三、难点攻关:懂实践的工程师,更能把算法用好

回顾本次赛题的难点,子任务一(通过大数据平台日志数据,对数据安全事件识别分类)因匹配信息相对较少,分析过程更为复杂,对工程师们提出了数据安全业务理解及数据分析能力的要求。

“赛方提供的数据是无标签的,这可能是识别分类这题最大的难点。而实际上,在企业实践场景中(也就是我们服务客户时),企业的日志数据通常就是没有标签的。”步方谈到,“这要求我们不仅了解企业大数据平台常见异常事件的特征,还要对数据有敏感度,有简明有效的数据分析方法,能结合赛方提供的异常时间段的先验知识,方才能确定异常事件分类。”

子任务二(构建系统用户使用大数据平台的行为基线)则相对容易被忽略。在多轮激烈的比赛中,赛方其实并未针对基线做出评分考核,看似不影响评审结果。而在实际的企业场景里,生成安全行为基线对异常行为的解释分析及处理策略的制定极为重要。

“举个简单的例子,当新的行为发生,通过与正常行为基线的对比,我们就能快速判断情况。”步方解释到,“因此,我们采用多任务学习的架构,在算法设计上既考虑了共享时序特征,又考虑了一个模型中完成异常分类和基线预测两种任务。同时,我们采用的深度学习模型能进行增量学习在线学习,更匹配实际场景中应用的需要。”

大赛落幕同期,“异常攻击事件检测模型”也已完成产品化改造,嵌入奇点云数据安全引擎DataBlack。

基于“异常攻击事件检测模型”,DataBlack能实时比对用户行为现状与正常基线,帮助大数据平台(例如数据云平台DataSimba)识别异常,标注出异常时间及问题所在,并按配置进行告警,进一步强化数据全生命周期安全管控能力。

站在技术与商业的交叉点上,奇点云极客们对大数据与人工智能领域的探索仍将继续。


关于奇点云

StartDT奇点云是独立第三方数据科技集团,旗下拥有“奇点云”、“GrowingIO”两大品牌,专注为客户构建统一开放、中立安全的数据云和全域全场景、智能易用的分析云,协同客户全场景赋能商业决策,实现降本增效。至今,已服务1500+客户,覆盖泛零售、制造、金融、政企等领域,陪伴客户成功实践数字化转型。

自创立以来,奇点云始终践行数据安全准则,从数据采集、数据存储计算、数据加工到数据应用,帮助客户完成全链路、全场景、全智能的数据全生命周期安全管控。

奇点云的数据产品曾入选中国信通院发布的《数据安全产品与服务图谱2.0》数据安全通用类产品、数据安全综合类产品双领域。其中,数据安全引擎DataBlack能覆盖98%以上的企业安全场景,达到接入零信任环境的标准,为企业创造可靠、可信、可控的数据流动空间。

CCF BDCI“大数据平台安全事件检测与分类识别”赛题,奇点云夺冠相关推荐

  1. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  2. 大数据平台安全标准设计

    从应用角度看,需大数据平台提供如下4项安全功能: 图1 大数据平台安全功能 1.边界--限制只有合法用户身份的用户访问大数据平台集群 (1) 用户身份认证:关注于控制外部用户或者第三方服务对集群的访问 ...

  3. 安全大数据平台架构设计参考

    当前网络与信息安全领域,正在面临多种挑战.一方面,企业和组织安全体系架构日趋复杂,各种类型的安全数据越来越多,随着内控与合规的深入,传统的分析能力明显力不从心,越来越需要分析更多的安全信息.并且要更加 ...

  4. Peter Cnudde谈雅虎如何使用Hadoop、深度学习和大数据平台

    \ 本文要点 \ 了解雅虎如何利用Hadoop和大数据平台技术: \ 在类似Flickr和Esports这样的产品中,雅虎如何使用深度学习技术进行场景检测和对象识别: \ 机器学习在图像识别.定向广告 ...

  5. 在线实时大数据平台Storm集群组件学习

    Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速(轻量级)的大数据处理, Storm常用于在线的实时的大数据处理:这句话一定程度上反应了三套大数据平台的鲜明特征.Storm是一套实 ...

  6. 兼顾稳定和性能,58大数据平台的技术演进与实践

    http://www.infoq.com/cn/articles/58-big-data-platform-technology 主要内容分为三方面:58大数据平台目前的整体架构是怎么样的:最近一年半 ...

  7. 大数据平台应用 17 个知识点汇总

    一.大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto.Mpp架构的数据库主要用于即席 ...

  8. 大数据平台助力核与辐射安全监管

    大数据平台助力核与辐射安全监管 核能开发利用是大国发展的战略必争之地,也是调整能源结构.应对气候变化和建设生态文明,进而确保国家安全的重要手段.虽然我国核与辐射安全监管能力不断提升,但仍面临诸多挑战. ...

  9. 大数据平台构建_如何像产品一样构建数据平台

    大数据平台构建 重点 (Top highlight) Over the past few years, many companies have embraced data platforms as a ...

最新文章

  1. 企业信息化投入中咨询服务_企业信息化咨询中的问题与对策研究
  2. 使用OpenCV开发机器视觉项目
  3. Android 操作系统为什么不启用swap?
  4. 文献记录(part31)--Dynamic relationship identification for abnormality detection on financial time ...
  5. OpenCV图像处理(Python)学习笔记
  6. python迭代器是什么百度百科,python迭代器的接口是什么?
  7. 【面试笔记系列】排序算法汇总
  8. 一文说清ZooKeeper的实现原理
  9. sql语句 取搜索列表的前几条
  10. python turtle画熊猫人_Python 使用turtle插件,画小猪佩奇
  11. 企业网管服务器架设资料(极品中的极品)
  12. 51nod 1378 夹克老爷的愤怒(树型dp+贪心)
  13. Amber分子动力学模拟
  14. 【非官方】哈工大2022 形式语言与自动机试题解析
  15. h5调用手机相册摄像头以及文件夹
  16. lighttpd URL重写
  17. 关于Linux、git和github的一些历史事件
  18. 高中科幻作文关于计算机,高中科幻作文(精选5篇)
  19. 文件和文件夹的操作——文件夹的操作
  20. JIRA插件ScriptRunner安全漏洞SRPLAT-876

热门文章

  1. 高容错微服务架构设计思路(硬核干货)
  2. Virtuoso环境的创建与版图基础
  3. 卸载nvidia驱动
  4. 这款小程序开发神器你知道吗?
  5. 微软宣布即将停止对 Visual Studio 旧版本的支持
  6. 使用nexus3作为Docker镜像仓库
  7. 存货成本确定方法-进价计算设计
  8. 中鑫吉鼎|低收入家庭理财方法大盘点
  9. 精彩的一期,龌龊的一期
  10. 大数据时代:我们做好准备了吗