所以我们的流程如图所示。将正负样本按 1:1 的比例转换为图像。将 ImageNet 中训练好的图像分类模型作为迁移学习的输入。在 GPU 集群中进行训练。我们同时训练了标准模型和压缩模型,对应不同的客户需求(有无 GPU 环境)。

流程中比较核心的算法其实在文件到图像的转换。因为常规的网络一般能输入的尺寸也就是 300 x 300 上下,也就是 9K 左右的规模。而病毒样本的大小平均接近 1M,是远远大于这个尺寸。图像领域的常规转换方法就是缩放,或者用 pyramid pooling。这两者我们实验效果都非常低差,AUC 在 0.6 左右。所以后来我们又设计了一个很复杂的 pooling 算法处理大尺寸文件。

前面我们介绍过,加壳的样本会对基于内容的分析造成影响。实验中我们发现文件 A 和 B 经过加壳后转图像。肉眼看过去,A 和 B 的相识度会比以前更高。就好比 PS 中马赛克一张猫和一张狗的图片,马赛克强度越高,两图片处理后看起来越相似。但马赛克(加壳)强度低的话,其实处理后的图片和处理前的图片有一定的高纬度映射关系(加壳前后有对应关系)。这种关系,实验看起来深度学习网络能够分辨。当然强度大就无能为力了。

假设算法目前是分辨猫狗照片,不管有没有马赛克。但训练照片中,只有猫照片有马赛克处理,狗没有。所以人工产生狗马赛克图片(人工对样本加壳),让算法有更强分辨能力,至少是对弱马赛克后的图片。

高强度马赛克的话,算法只能记住高强度马赛克后的特征,只是如果有额外信息,比如图片出现在的邮件正文有猫或者狗的字样,就能辅助我们判断(引入其他信息)。

流程中提过我们训练了双模型,一个的 Inception-V4,一个是 Squeezenet。Inception-V4 是目前较为先进的模型,有最好的实验结果,训练和 inference 的速度也可以接受。而 Squeezenet 是压缩模型,参数数量只有 AlexNet 的 1/50,虽然准确度稍差,但检测速度快很多,专为不能提供 GPU 环境的客户设计。另外针对这两个模型做迁移学习的时候,我们都替换掉了最顶和最低几层。

简单说一下测试结果,AUC 可以达到 0.985,误报率小于 1/1000,检测的速度目前可以达到 150M/ 天。

再与各位分享一些经验教训。上面提到检测率和误报率已经同等于沙箱检测的水平。而基于二进制文件的深度学习无需沙箱环境(无需在客户处部署沙箱)。深度学习模型记住的是病毒二进制文件中的有效特征,而不是特征码(特征码由专家选取,对应唯一病毒样本),所以具有更好的通用性。在实际测试中,即使一个月不更新模型,对新衍生的病毒样本也有较高的识别能力。

测试发现,对不同规模的样本进行测试。更大的数据集,有更高的准确度。这个深度学习本身的性质是一致的。再者不能完全把深度学习当成黑箱,而是需要分析其机制,至少要观察哪些样本的哪些特征比重较大。

今年 5 月爆发的 WannaCry 席卷了全球 90 多个国家,造成了很恶劣的影响。上图贴出了 Virustotal 上各家病毒引擎对早期 WannaCry 样本的扫描结果。我们可以看到,只有 CrowdStrike 和 Endgame 两家使用机器学习为核心的病毒引擎能够将其识别为可疑。这也印证了我们所说的泛化能力强。

另外有一个意外发现是,我们的模型对恶意的 HTML 检测率也很高。但同时对正常的 HTML 样本有很高的误报率。定位发现原因是训练集的恶意样本中包含很多 HTML 内容,被深度学习抽取成了特征。优化方法很简单,只需要在正常样本中加入一定的 HTML 就可以平衡。

前面提到微软比赛中第一名的方案是有问题的。他的方案是用 N-gram 产生数万特征,然后用 XGboost 来做分类。赛后有人发现,微软提供病毒样本时是按病毒分类放在不同路径下,而路径字符是包含在样本中,并被分类器判断成了重要特征。这才使其分类准确度优于其他选手。

上面两个案例都再次提醒我们,不能把机器学习黑箱化。

下一步,我们还会深入到网络中,继续探索具体的检测机制。我们还会测试其他的样本类型,比如文档类型。目前我们的输出只是一个二元判断,那安全人员可能希望可以进一步给出病毒类型,甚至是家族归属。方案层面,除了目前使用的二进制码转低纬度图片 +CNN 的方法,我们也在测试另一套方案,考察二进制码在长空间跨度下的特征,并应用 LSTM。

转载于:https://www.cnblogs.com/bonelee/p/8006293.html

准确率99%!基于深度学习的二进制恶意样本检测——瀚思APT 沙箱恶意文件检测使用的是CNN,LSTM TODO...相关推荐

  1. 基于深度学习的病毒检测技术无需沙箱环境,直接将样本文件转换为二维图片,进而应用改造后的卷积神经网络 Inception V4 进行训练和检测...

    话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...

  2. 基于深度学习的犬种识别软件(YOLOv5清新界面版,Python代码)

    摘要:基于深度学习的犬种识别软件用于识别常见多个犬品种,基于YOLOv5算法检测犬种,并通过界面显示记录和管理,智能辅助人们辨别犬种.本文详细介绍博主自主开发的犬种检测系统,在介绍算法原理的同时,给出 ...

  3. 基于深度学习的高精度海洋生物检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度海洋生物检测识别系统可用于日常生活中检测与定位海洋生物目标(海胆:echinus,海参:holothurian,扇贝:scallop,海星:starfish),利用深度学习算 ...

  4. 毕业设计-基于深度学习的网络流量异常检测系统

    目录 前言 课题背景和意义 实现技术思路 一.相关技术与理论介绍 二.基于深度学习的网络流量二分类模型 三.网络流量异常检测系统 实现效果图样例 最后 前言

  5. 为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁

    至顶网安全频道 07月26日 北京报道:"阿尔法狗"(AlphaGo)的一战成名让很多人记住了人工智能.深度学习.大数据分析等一系列新兴科技热词,而真正要把这些新技术应用到商业领域 ...

  6. 基于深度学习的安卓恶意应用检测----------android manfest.xml + run time opcode, use 深度置信网络(DBN)...

    基于深度学习的安卓恶意应用检测 from:http://www.xml-data.org/JSJYY/2017-6-1650.htm 苏志达, 祝跃飞, 刘龙     摘要: 针对传统安卓恶意程序检测 ...

  7. 基于深度学习的分词模块 对新闻的分词准确率高达96%以上

    基于深度学习的分词模块 对新闻的分词准确率高达96%以上 Github 代码链接: https://github.com/gitstliu/Segment 已经训练好的模型,提供http接口服务. 如 ...

  8. 基于深度学习的人脸识别与管理系统(UI界面增强版,Python代码)

    摘要:人脸检测与识别是机器视觉领域最热门的研究方向之一,本文详细介绍博主自主设计的一款基于深度学习的人脸识别与管理系统.博文给出人脸识别实现原理的同时,给出Python的人脸识别实现代码以及PyQt设 ...

  9. 论文阅读——基于深度学习智能垃圾分类

    B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...

最新文章

  1. docker镜像、容器管理
  2. 【组合数学】递推方程 ( 递推方程内容概要 | 递推方程定义 | 递推方程示例说明 | 斐波那契数列 )
  3. Java SE 6 新特性 Instrumentation 新功能
  4. 大数运算(6)——大数阶乘(求位数)
  5. Windows Hyper-V远程信息泄露漏洞CVE-2017-8712 影响Win2016和win10
  6. 设置背景图片模糊,内容不模糊
  7. 把变量赋值给寄存器_散装 vs 批发谁效率高?变量访问被ARM架构安排的明明白白...
  8. mysql 脏数据查询_MySQL数据库02
  9. edu汇编语言——实训课程
  10. cups源码下载 linux_正点原子Linux第七十章Linux WIFI驱动实验
  11. 中国交互式智能板市场趋势报告、技术动态创新及市场预测
  12. Android 系统定时管理器AlarmManager的使用
  13. mysql数据库管理手册_CentOS MySQL 用户及数据库管理手册
  14. 复利计算1.0-2.0-3.0
  15. 使用migration创建表时,出错的解决方法
  16. 菲律宾马尼拉华人区一大厦发生火灾 致1人遇难
  17. Linux系统中Tomcat下载+安装+测试【一看就会】
  18. python中的df是什么意思_python df遍历的N种方式
  19. 使用CSS3设置条纹背景
  20. 修改电脑配置的方法(被骗之后才学会的)

热门文章

  1. android 图片处理过程中添加进度条,『Android自定义View实战』给我一个图标,还你一个水波纹进度球...
  2. python优化算法工具包_这可能是史上最全的 Python 算法集(建议收藏)
  3. 如何做到微信机器人不封号_微信如何做到一键群发所有群
  4. mysql 时间戳 三天_MySQL格式化时间戳 统计当日,第二天,第三天,3个工作日以后的数据...
  5. 微信小程序之设置不同的顶部导航栏名称
  6. Java面试题!Java获取异常堆栈信息
  7. 一条正确的Java职业生涯规划,顺利拿到offer
  8. 【Network Security!】关于DDOS攻击的现状分析与探索
  9. Python程序设计题解【蓝桥杯官网题库】 DAY9-基础练习
  10. 【深度学习笔记】深度学习中关于epoch