AI安全初探——利用深度学习检测DNS隐蔽通道

目录

AI安全初探——利用深度学习检测DNS隐蔽通道

1DNS 隐蔽通道简介

2、 算法前的准备工作——数据采集

3、 利用深度学习进行DNS隐蔽通道检测

4、 验证XShell的检测效果

5、 结语

1DNS 隐蔽通道简介

DNS 通道是隐蔽通道的一种,通过将其他协议封装在DNS协议中进行数据传输。由于大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给DNS作为隐蔽通道提供了条件,从而可以利用它实现诸如远程控制、文件传输等操作,DNS隐蔽通道也经常在僵尸网络和APT攻击中扮演着重要的角色。

DNS隐蔽通道可以分为直连和中继两种模式。直连也就是Client直接和指定的目标DNS Server(授权的NS 服务器)连接,通过将数据编码封装在DNS协议中进行通信,这种方式速度快,但是限制比较多,很多场景不允许用户指定DNS Server。而中继模式的DNS通道则更为隐蔽,但同时也因为数据包到达目标DNS Server前需要经过多个DNS查询服务器,所以速度上较直连模式慢很多。中继模式的DNS通道原理如图1所示。

1 中继模式下的DNS隐蔽通道原理

例如,前段时间著名的XShell DNS通道攻击,黑客在Xshell中植入恶意代码,通过DNS隐蔽通道外发用户敏感数据的示例如图2 所示,黑客将外发数据藏在nylalobghyhirgh.com子域名中。

2 Xshell DNS隐蔽通道,黑客将外发数据藏在nylalobghyhirgh.com子域名中

DNS 隐蔽通道从提出到现在已经有了很多实现工具,历史比较早的有NSTXOzymandns,目前比较活跃的有iodinednscat2dns2tcp,其他不太常见的还有DeNiseHeyoka等。不同工具的核心原理相似,但在编码、实现细节和应用场景方面存在一定的差异。

本文使用卷积神经网络(CNN)来检测DNS隐蔽通道。第一步工作是样本数据采集。

2、算法前的准备工作——数据采集

利用上述DNS隐蔽通道工具进行“黑”样本采集工作见另一篇博文DNS隐蔽通道检测——数据收集,利用iodine进行DNS隐蔽通道样本收集》,其流程是先抓取DNS隐蔽通道工具攻击过程中的网络流量pcap包,然后利用wireshark工具将pcap包转换为机器学习算法能够识别文本文件。这是一个体力活,我收集到的业界流行的DNS 隐蔽通道工具的数据样本如图3所示。

3 收集的DNS隐蔽通道工具示意样本

dnscat2工具为例,其生成的一个样本见图4,可以看到DNS报文里包含了大量的较长子域名,而外发数据便藏在这些子域名中(我使用的主域名是friendsakka.xyz)。

4 dnscat2工具生成的示意样本

至于“白”样本收集,我们使用的是某高校的校园网络流量。黑白样本收集好以后,就可以进入检测算法环节了。

3、利用深度学习进行DNS隐蔽通道检测

本文使用CNN(卷积神经网络)来检测DNS隐蔽通道,在介绍算法前,先简单介绍下CNN

CNN(卷积神经网络)常用于图像识别并取得了极佳的效果。图5展示的是一个典型的卷积神经网络结构。该网络包含两个卷积层(convolution layer),两个池化层(pooling layer)和一个全连接层(fully connected layer)。

5 典型的卷积神经网络结构

卷积神经网络的基本思想和我们人类大脑识别图像的机制是一致的。例如,当看到一张“喵星人”图像时,我们之所以认为它是“喵星人”,是因为我们看到它有萌萌的头、长长的尾巴、柔软光滑的皮毛等明显特征,通过组合(更高层次的抽象)这些特征,我们的大脑最终便可做出准确的判断。卷积神经网络的基本思想也是类似,核心理念包括:

  • 局部感受野这是通过卷积层来完成的,形象地说,就是模仿你的眼睛,想想看,你在看东西的时候,目光是聚焦在一个相对小的局部吧?比如喵星人的图像上有爪子或者萌头等明显的局部特征。而在卷积神经网络中,每个隐层节点只连接到图像局部像素点上。
  • 池化形象地说,你看向远方,然后闭上眼睛,你仍然记得看到了些什么,但是你能完全记住你刚刚看到的每一个细节吗?答案是不能。同样,在卷积神经网络中,没有必要对原图像所有细节做处理,而是使用某种压缩方法,这就是池化,也就是每次将原图像卷积后,都通过一个采样的过程,来减小图像的规模。
  • 权值共享在卷积神经网中,同一个卷积核内,所有的神经元的权值是相同的,从而大大减少需要训练的参数。之所以如此设计,就如同人类大脑的某个神经中枢中的神经细胞,它们的结构、功能是相同的,甚至可以互相替代。

如果你还没有理解的话,我们再看下面这个例子,专家们设计了包含10个卷积层,4个池化层和2个全连接层的卷积神经网络,见图6所示,该网络主要用于图像识别。专家们发现在比较低的层,神经元倾向于学习一些简单的模式,比如图像边缘颜色条带灯;在比较高的层,神经元能够检测到一些更为高层次的抽象特征,比如整辆轿车等。

专家构建的用于图像识别的卷积神经网络

CNN的诞生是为了解决图像处理问题。在安全界,瀚思科技开发出了基于深度学习的二进制病毒样本检测技术,可以做到沙箱同等水平的 99% 的检测准确率,而误报率低于 1/1000

CNN检测的图像通常是二维数据,而作为DNS隐蔽通道传输的子域名虽是一维的文本数据,但同样可以用CNN进行处理。在本文的DNS隐蔽通道检测中,我们使用一维的卷积函数处理DNS子域名片段,以提炼高级特征进一步分析。

利用CNN进行DNS隐蔽通道检测的代码框架如下:

defrun():X, Y, max_len, volcab_size=get_data()trainX, testX, trainY, testY= train_test_split(X, Y, test_size=0.2, random_state=42)model=get_cnn_model(max_len, volcab_size)model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True, batch_size=32)

大致流程是先获取黑白样本数据,然后将80%的数据用于训练,剩下20%的数据用于CNN模型验证。

其中,get_cnn_model使用了pythonTensorFlowtflearn,其代码如下:

defget_cnn_model(max_len, volcab_size):#构建CNN模型network = tflearn.input_data(shape=[None, max_len], name='input')#为了进行数据降维加入了embedding层network = tflearn.embedding(network, input_dim=volcab_size, output_dim=64)#卷积层使用了一维的卷积函数branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2")branch2= conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2")branch3= conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2")network= merge([branch1, branch2, branch3], mode='concat', axis=1)network= tf.expand_dims(network, 2)#最大池化操作network =global_max_pool(network)#加入dropout防止过拟合network = dropout(network, 0.5)#全连接network = fully_connected(network, 2, activation='softmax')#回归操作network = regression(network, optimizer='adam', learning_rate=0.001,loss='categorical_crossentropy', name='target')#构建深度神经网络模型model = tflearn.DNN(network, tensorboard_verbose=0)return model

在上述模型中,为了进行数据降维先加入了embedding层,其本质和word2vec一样,因为在DNS 隐蔽通道的子域名中包含了大量的字符而导致数据输入维度过高,代码中output_dim=64表示将数据输入降低维度到64维。接下来我们使用一维的卷积函数conv_1d处理DNS子域名片段,提炼高级特征进一步分析。由于典型的一维卷积函数处理文字片段的大小通常为345,我们也使用这些典型参数。此外,模型中加入了dropout,用于防止过拟合。

获取黑白样本数据的代码如下,其中包括对原始的子域名字符进行字典编码(先得到黑白样本所有子域名字符集合),并使用pad_sequences函数按照固定长度进行子域名长度对齐操作(因CNN要求各样本数据输入维度一致,而某些子域名很短,某些子域名很长,pad_sequences将短的子域名采用特殊数字进行填充补齐,使它们长度一致):

defget_data():black_x, white_x=get_local_data()black_y, white_y= [LABEL.black]*len(black_x), [LABEL.white]*len(white_x)X= black_x +white_xlabels= black_y +white_y#Generate a dictionary of valid charactersvalid_chars = {x:idx+1 for idx, x in enumerate(set(''.join(X)))}max_features= len(valid_chars) + 1maxlen= np.max([len(x) for x inX])#Convert characters to int and padX = [[valid_chars[y] for y in x] for x inX]X= pad_sequences(X, maxlen=maxlen, value=0.)#Convert labels to 0-1Y = to_categorical(labels, nb_classes=2)return X, Y, maxlen, max_features

其中,get_local_data主要是从样本文件中提取DNS子域名。

def get_local_data(tag="labeled"):data_path= "latest_metadata_sample"black_data, white_data=[], []for dir_name in ("black", "white_like"):dir_path= "%s/%s_%s" %(data_path, tag, dir_name)for path initerbrowse(dir_path):with open(path) as f:for line inf:_, subdomain=extract_subdomain(line)if subdomain is notNone:if "white_like" inpath:white_data.append(subdomain)elif "black" inpath:black_data.append(subdomain)return black_data, white_data

核心代码讲解完毕,开始进行模型训练。在我的个人电脑上,算法运行时间大概17小时,最后的结果如下:

Run id: 6U1KPDLog directory:/tmp/tflearn_logs/--Training Step:5131  | total loss: 0.03967 | time: 6406.696s| Adam | epoch: 001 | loss: 0.03967 - acc: 0.9888 | val_loss: 0.02546 - val_acc: 0.9926 -- iter: 164165/164165--Training Step:10262  | total loss: 0.03562 | time: 6422.500s5776/164165| Adam | epoch: 002 | loss: 0.03562 - acc: 0.9917 | val_loss: 0.01793 - val_acc: 0.9948 -- iter: 164165/164165--Training Step:15393  | total loss: 0.03433 | time: 6357.422s| Adam | epoch: 003 | loss: 0.03433 - acc: 0.9888 | val_loss: 0.01432 - val_acc: 0.9962 -- iter: 164165/164165--Training Step:20524  | total loss: 0.02852 | time: 6312.083s| Adam | epoch: 004 | loss: 0.02852 - acc: 0.9892 | val_loss: 0.01186 - val_acc: 0.9972 -- iter: 164165/164165--Training Step:25655  | total loss: 0.02441 | time: 6292.232s| Adam | epoch: 005 | loss: 0.02441 - acc: 0.9947 | val_loss: 0.01398 - val_acc: 0.9960 -- iter: 164165/164165--Training Step:30786  | total loss: 0.01890 | time: 6286.252s| Adam | epoch: 006 | loss: 0.01890 - acc: 0.9930 | val_loss: 0.01373 - val_acc: 0.9963 -- iter: 164165/164165--Training Step:35917  | total loss: 0.00921 | time: 6261.734s| Adam | epoch: 007 | loss: 0.00921 - acc: 0.9984 | val_loss: 0.01290 - val_acc: 0.9966 -- iter: 164165/164165--Training Step:41048  | total loss: 0.00780 | time: 6266.017s| Adam | epoch: 008 | loss: 0.00780 - acc: 0.9994 | val_loss: 0.01177 - val_acc: 0.9970 -- iter: 164165/164165--Training Step:46179  | total loss: 0.01850 | time: 6257.918s| Adam | epoch: 009 | loss: 0.01850 - acc: 0.9951 | val_loss: 0.01109 - val_acc: 0.9971 -- iter: 164165/164165--Training Step:51310  | total loss: 0.02062 | time: 6258.476s| Adam | epoch: 010 | loss: 0.02062 - acc: 0.9953 | val_loss: 0.00966 - val_acc: 0.9974 -- iter: 164165/164165

可以看到算法迭代了10次,每次训练时间一个多小时,最终的检测精度在99.53%,使用CNN进行DNS隐蔽通道的检测效果初步看来还不错。但是,因为训练样本和测试样本的内在数据分布规律是相同的,该精度再高也可能存在一定的过拟合风险。下面我们利用前段时间著名的XShell DNS隐蔽通道攻击来评估算法的检测能力。

4、验证XShell的检测效果

我们尝试用训练出的算法检测前段时间著名的XShell隐蔽通道攻击,其进行攻击的域名为nylalobghyhirgh.com,将包含该攻击的DNS样本加入到模型预测中:

defpredict():testX, testY=get_xshell_data()model=get_cnn_model()....  predictions=model.predict(testX)    cnt=0for i,p inenumerate(predictions):if abs(p[2]-testY[i][2]) < 0.1:cnt+= 1print cnt/(len(predictions)+.0)

代码运行后得到的检测准确率为97.3%,也就意味着nylalobghyhirgh.com97.3%的子域名都可能是在利用DNS隐蔽通道传输数据。

上述验证表明,使用CNN可以有效地检测DNS隐蔽通道。当然,最终的检测准确率还需在真实而复杂的网络环境中长期运行观察而定。

5、结语

本文只是AI安全初探的一次尝试,大致说明了使用深度学习算法CNN进行安全检测的基本流程,文中有写得不明白的地方,欢迎大家留言一起探讨。

转载请注明出处:http://www.cnblogs.com/bonelee/p/8109172.html

参考资料:

1、http://blog.csdn.net/baobei0112/article/details/54906309

2、https://yq.aliyun.com/articles/68901

3、http://www.freebuf.com/articles/network/153345.html

转载于:https://www.cnblogs.com/bonelee/p/8109172.html

AI安全初探——利用深度学习检测DNS隐蔽通道相关推荐

  1. 【转】利用深度学习检测DNS隐蔽通道

    原文连接:AI安全初探--利用深度学习检测DNS隐蔽通道 - bonelee - 博客园 AI安全初探--利用深度学习检测DNS隐蔽通道 目录 AI安全初探--利用深度学习检测DNS隐蔽通道 1.DN ...

  2. python数据库开发 dga_使用深度学习检测DGA(域名生成算法)——LSTM的输入数据本质上还是词袋模型...

    from:http://www.freebuf.com/articles/network/139697.html DGA(域名生成算法)是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检 ...

  3. 利用iodine进行DNS隐蔽通道样本收集

    这里使用的是kali来搭建本次的实验环境,因为kali里面默认安装了iodine.tcpdump.wireshark等本次实验需要用到的工具,所以省去了不少的工作量. 我安装的kali2020.1版本 ...

  4. AI综述专栏 | 基于深度学习的目标检测算法综述

    https://www.toutiao.com/a6685618909275488780/ 2019-04-30 17:35:53 关注微信公众号:人工智能前沿讲习, 重磅干货,第一时间送达 AI综述 ...

  5. 普渡大学利用深度学习自动检测核反应堆裂缝

    美国普渡大学正在开发人工智能系统利用深度学习技术检测核反应堆裂缝,未来能帮助减少发生事故和维护成本. 普渡大学(Purdue University)正在开发一个系统,使用人工智能技术检测核反应堆视频中 ...

  6. “创新实践”项目介绍3:《利用深度学习进行VR手柄光点检测》

    指导教师点评 这个项目来源于企业的实际需求,所采用的技术方案是最新的深度学习物体检测技术.技术方案具有一定的难度,很有挑战.通过这个项目,学生可以接触真正的需求,提升分析问题和解决问题的能力. 项目名 ...

  7. AI 对抗超级细菌:麦克马斯特大学利用深度学习发现新型抗生素 abaucin

    内容一览:鲍曼不动杆菌是一种常见的医院获得性革兰氏阴性病原体,通常表现出多重耐药性.利用传统方法,发现抑制此菌的新型抗生素很困难.但利用机器学习可以快速探索化学空间,从而增加发现新型抗菌分子的可能性. ...

  8. 吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)...

    雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS ...

  9. 【AI初识境】深度学习模型评估,从图像分类到生成模型

    文章首发于微信公众号<有三AI> [AI初识境]深度学习模型评估,从图像分类到生成模型 这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关 ...

最新文章

  1. Python语法点滴
  2. hdu3367 Pseudoforest
  3. 最短路径(弗洛伊德算法)
  4. mysql手动安装配置,mysql8.0.11 winx64手动安装配置教程
  5. 已被骗数百万美金!App Store 中诈骗应用横行,网友:“苹果只顾抽成!”
  6. Shell脚本应用之服务启动脚本
  7. QML Rectangle矩形
  8. 基于Springboot+Vue+ElementUI物流配送管理系统
  9. 单片机制作时钟倒计时
  10. IExplore.exe应用程序错误解决方法
  11. 微信小程序通过url 上传远端图片 到微信小程序临时素材库 java
  12. SSH——Hibernate初学者之旅(五)
  13. 【19调剂】北京语言大学 智能语音习得技术实验室 -调剂信息
  14. BLDC控制方案简介
  15. 基于单片机体温心率检测仪系统设计(毕业)资料
  16. cocos creator 动态设置精灵图片
  17. Fe原子辐照轰击多层石墨烯模拟代码
  18. js将数字转换成大写汉字
  19. RabbitMQ Topic模式
  20. Excel 2010 VBA 入门 076 数据处理之计算个人所得税

热门文章

  1. python中字典按键或键值排序
  2. java 取绝对值_Java实现一致性哈希算法,并搭建环境测试其负载均衡特性
  3. c语言 图的存储邻接矩阵,数据结构之---C语言实现图的数组(邻接矩阵)存储表示...
  4. Linux中如何使用mysql和php_hi 感恩节——Linux基础教程之mysql和php
  5. 关于linux文件挂载(一)
  6. 【深度学习】讲一个深度分离卷积结构和空洞卷积的应用
  7. 机器学习(MACHINE LEARNING)MATLAB求解利润最大化问题【线性规划】
  8. python【蓝桥杯vip练习题库】ALGO-141 P1102(学生信息)
  9. 算法提高 身份证排序
  10. python实现记事本的查找功能_Python + PyQt4 实现记事本功能