前几天随公司参加了互联网安全大会(ISC,Internet Security Conference),虽然只参加了半天的会议,感觉收获不。更重要的是偶遇师兄,人生无处不相逢的感觉,记录一下当时的会议内容也当作一下偶遇的纪念。






2018.9.5 ISC - 人工智能与安全论坛:智能与安全的融合与对抗
合作机构:中国人工智能学会人工智能与安全专业委员会(筹)
论坛主席:Dawn Song
主持人:李康 360智能安全研究院院长

致辞

Dawn Song
加州伯克利大学教授

没说啥实质内容,Dawn Song给人的感觉是一个年轻有为的华人女性,有李飞飞的感觉。听主持人说这领域的众多专家都是他的学习,主持人开玩笑道,为了让演讲者好好演讲,把他们的老师请过来监督他们。

致辞

谭晓生
中国人工智能学会人工智能与安全专业委员会(筹)发起人
360集团技术总裁 首席安全官

最早听说国外同行用机器学习做搜索,最开始他不相信,认为是在忽悠,后来评分结果出来了确实机器学习结果更好,他怀疑是评分机制有利于机器学习,最后才体会出确实人工智能机器学习很厉害。
受到这个启发,360很早就开始使用机器学习来做病毒检测,发现使用深度学习的模型具有高检出率,但是误报率很高,加入白名单之后能得到一个还不错的模型,最后又结合其他的方法,降低误报率,得到了一个很好的模型(没说具体是啥方法,感觉像是工程上的技巧)。然后他最后总结说希望大家“有所收获,有所行动”,感觉这个结尾不错,学到了。

基于DNN的二进制代码相似性检测

张超
清华大学网络研究院副教授

主持人介绍他是做比赛,写paper的style。

二进制代码相似性检测(Binary Code Similarity Detection, BCSD)
目的:

  • 代码克隆检测
  • 恶意代码检测
  • 相似漏洞挖掘
  • 补丁对比分析
  • 逆向工程辅助

难点:

  • 跨平台
  • 跨版本
  • 跨编译器

现有方案:

  • CFG:相似的代码具有相似的映射(不同函数之间的调用拓扑图),代表谷歌的BinDiff,缺点:图同构尚无多项式时间解法,特征工程会引入人为偏见
  • SMT:有约束求解器判断函数片段的语义相似性,缺点:负载效率低
  • 动态方法:在受控的随机(仿真)环境中对程序做片段质心,基于观察到的运行时行为特征,判断函数的相似性。缺点:部署灵活性低,把函数跑起来也不是很容易的事情

解决方案:αDiff: Cross-Version Binary Code Similarity Detection with DNN

刻画代码,把函数分成三部分:

  • 函数代码:Intra-Func特征
  • 函数与文件内其他函数的交互关系:Inter-Func特征
  • 函数与其他文件的交互关系:Inter-Mod特征

函数相似性=三个特征的距离之和

Intra-function Semantic Feature

把二进制代码用神经网络embedding为一个64维的向量
感觉核心是使用了一个Loss函数,因该就是triplet的另外一种表达方式,contrastive loss function:
定义两个函数的intra-function features的距离为:

D1(Iq,It)=∣f(Iq;θ)−f(It;θ)∣D1(I_q,I_t)=|f(I_q;\theta)-f(I_t;\theta)|D1(Iq,It)=f(Iq;θ)f(It;θ)

the distance of two functions’ intra-function features定义为:L(θ)=y⋅D1(Iq,It)+(1−y)⋅max(0,m−D1(Iq,It))L(\theta)=y\cdot D1(I_q, I_t)+(1-y)\cdot max(0,m-D1(I_q,I_t))L(θ)=yD1(Iq,It)+(1y)max(0,mD1(Iq,It))

如果两个代码相似y=0y=0y=0,否则y=1y=1y=1mmm是不相似函数的最小间距。
This objective function can be solved using Stochastic Gradient Descent (SGD) with standard back propagation algorithms.

Inter-function Semantic Feature

将函数在the call graph(函数调用拓扑图)中的in-degree和out-degree作为函数的inter-function feature。对于函数IqI_qIq,我们把2-dimensional vector g(Iq)=(in(Iq),out(Iq))g(I_q) = (in(I_q), out(I_q))g(Iq)=(in(Iq),out(Iq))作为他的Inter-function Semantic Feature。两个函数的the (Euclidean) distance of two functions’ inter-function features
定义为:

D2(Iq,It)=∣g(Iq)−g(It)∣D2(I_q, I_t)=|g(I_q)-g(I_t)|D2(Iq,It)=g(Iq)g(It)

Inter-module Semantic Feature

把函数imported functions作为Inter-module Semantic Feature,因为相似的函数载入相似的库和模块。这个特征跨版本的鲁棒性比较强。因此我们定义:h(set,superset)=&lt;x1,x2,...,xN&gt;h(set, superset)=&lt;x_1,x_2,...,x_N&gt;h(set,superset)=<x1,x2,...,xN>NNN为superset的大小,如果superset第i个元素在set中,xi=1x_i=1xi=1;否则,xi=0x_i=0xi=0IqI_qIqItI_tIt载入的函数集合为imp(Iq)imp(I_q)imp(Iq)imp(It)imp(I_t)imp(It)。定义the (Euclidean) distance of two functions’ inter-module feature为

D3(Iq,It)=∣h(imp(Iq),imp(Iq)⋂imp(It))−h(imp(It),imp(Iq)⋂imp(It))∣D3(I_q, I_t)=|h(imp(I_q), imp(I_q)\bigcap imp(I_t))-h(imp(I_t), imp(I_q)\bigcap imp(I_t))|D3(Iq,It)=h(imp(Iq),imp(Iq)imp(It))h(imp(It),imp(Iq)imp(It))

两个函数总体的距离定义为:

D(Iq,It)=D1(Iq,It)+(1−ξD2(Iq,It))+D3(Iq,It)D(I_q, I_t)=D1(I_q, I_t)+(1-\xi^{D2(I_q, I_t)})+D3(I_q, I_t)D(Iq,It)=D1(Iq,It)+(1ξD2(Iq,It))+D3(Iq,It)

ξ\xiξ为一个0到1的数。

评测指标:

  • Reacall@K:正确答案出现在前K个中的比例(越大越好)
  • MRR:正确答案出现的位置的调和平均数

结论:加入CNN的模型效果更好,即使只有Intra-function Semantic Feature也比BinDiff效果好,加入剩下的特征效果会进一步提升。

人工智能安全平台

朱军
清华大学教授
realAI首席科学家

主要介绍他们开发的神经网络的对抗模型评估平台

攻击器:

已知梯度的攻击方法(有约束的优化问题argmaxx∗L(x∗,y),s.t.,∣x∗−x∣∞&lt;ϵargmax_{x^*}L(x^*,y),s.t.,|x^*-x|_{\infty}&lt;\epsilonargmaxxL(x,y),s.t.,xx<ϵ):

  • 单步FGSM:x∗=x+ϵ⋅sign(∇xL(x,y))x^*=x+\epsilon\cdot sign(\nabla_x L(x,y))x=x+ϵsign(xL(x,y))
  • 迭代FGSM:xt+1∗=clip(xt∗+α⋅sign(∇xL(xt∗,y)))x^*_{t+1}=clip(x^*_t+\alpha\cdot sign(\nabla_x L(x^*_t,y)))xt+1=clip(xt+αsign(xL(xt,y)))

可以调整的有距离(l1l_1l1,l2l_2l2,l∞l_\inftyl),增加局部噪声,自定义损失函数(交叉熵,欧式距离,铰链)

已知预测得分(score)的攻击方法:

  • 数值梯度
  • 遗传算法

已知预测值的攻击方法:

  • 边界攻击
  • 黑盒迁移攻击

安全报告:

给攻击者知道的越多越危险

防御器

观察对抗样本和原图可知,对抗样本局部放大之后可以看到很多噪点,原图平滑很多。防御器思路就是加一个自编码的神经网络做去噪,然后再L1正则化一下作为判别的神经网络的输入。

攻击检测:判断是否为对抗样本
对抗训练:将对抗样本加入训练集
混淆输出:对模型的梯度和结果进行处理,使得攻击者更难得到对抗样本

深度模型脆弱性检测和加固

刘焱
百度安全实验室AI安全负责人
公众号:兜哥带你学安全

对抗样本按照攻击成本可分为白盒攻击,黑盒攻击,real-world/物理 攻击

数据投毒,在训练集中加入一些数据使得模型失灵。

常见的模型加固方法:

  • Feature Squeezing
  • Spatial Smoothing
  • Label Smoothing
  • Adversarial Trainning
  • 数据增强

AdvBox是百度安全实验室AI安全团队开发的一套AI模型防御工具箱,支持众多攻击算法。为什么要开源:开源更有利于构造自己的生态,Hadoop刚开始没开源,导致后来谷歌还得改写API接口以适应其他开发者。

人工智能系统中的安全风险

李康
360智能安全研究院院长

人工智能应用面临的安全风险:

  • 逃逸攻击:欺骗人工智能应用
  • 模型推断攻击(model inference attack):人工智能模型和数据安全:
  • 拒绝服务攻击(DoS attack):干扰人工智能服务的正常运行
  • 传感器缺陷攻击(attack sensors):攻击人工智能应用输入系统

发现学术研究中的模型黑盒攻击中的黑盒不够黑,知道input的size,没考虑实际系统的预处理。因为发现对抗样本scale一下size就不work了。

他的工作就是推测模型的input scale,很巧妙的方法使得一张1024的图缩放到不同大小显示的画面不同,这样一张图片就可以推测出模型的input到底是多大了。再实际线上的系统中测试,这个方法有效。(感觉很聪明,想法比较工程化。)

提出了逆向工程的新思路,利用不同层对CPU,GPU和内存的消耗不同,可以推断出不同的层对应的程序,从而方便逆向(行为动态分析,导致传统的混淆防护失效)。解决方案:npu硬件加密。

Security for Machine Learning

Neil Gong
ECE Department
Iowa State University

推荐系统的攻击:同时出现,捆绑热点,使得自己的内容总是出现在推荐中。

防御对抗样本的方法(region-based classification),将样本扰动,放进分类器看预测结果的分布,可以得到更鲁棒的结果,还可以看出样本是不是对抗样本。

fulture:可证明的攻击防御

对抗样本的好的用处:用对抗样本的思想保护用户的隐私(好思路,将本身的样本混淆一下作为攻击者能看到的样本,导致攻击者判断失效)。

AI时代的攻与防

苏志刚
京东安全北美研究院院长

账号安全:AI Empowered
APP安全SDK->注册和登陆环节->异常检测->订单风控->业务验证和反馈
设备指纹->生物探针->行为分析->黑产情报

机注:

  • 成熟的工具:火牛和刀锋
  • 黑灰产供应链:
  • sim卡
  • 解码平台
  • 短信验证业务
  • 身份证
  • 检测特征
  • 机器行为
  • 虚假信息

机注检测:鼠标追踪移动速度是否非匀速
批量下单,地址聚类
流量特征检测是否是黑产工具,cookie

账号销售

  • 账号分类销售
  • 销售平台
  • 友商零售平台
  • 社区IM(QQ,微信)
  • 批发网站

黄牛行为

攻:爬虫->QQ群传递消息->黑产软件登陆->打码平台图像识别->羊毛变现
守:反爬虫->NLP黑产活动监控->黑产软件逆向->高对抗样本->地址聚类

机注是万恶之源

  • 批量机注账号
  • 检擦机注
  • 黑产情报:深挖黑产工具和策略
  • 无监督学习
  • 有监督学习
  • 挑战:低误判率

基于人工智能的金融风控和反欺诈技术

黄玲
慧安金科(北京)科技有限公司创始人/CEO

聚类加分类,半监督
图分析(利用图相似度降维)
特征:注册时间
机器学习学习出一套规则

对话环节

影响深刻的就是对于攻守方的讨论,认为攻永远比防更容易。防可能占优的方法是用更底层的东西对抗,硬件加密等。实在防守不容易的话可以加数字水印,诉诸法律手段。
还知道了黑产公司和正规公司一样,有产品经理测试开发,和正常互联网公司一样的架构。

人工智能与安全论坛:智能与安全的融合与对抗相关推荐

  1. java 论坛_武汉课工场JAVA培训:“真AI、超智能”人工智能大咖论坛解读

    "真AI.超智能"人工智能大咖论坛解读! 2020年8月3日,高薪工作,匠心课程,创新服务--课工场2020年夏季课程发布系列的第1场"真AI.超智能"人工智能 ...

  2. 【人工智能】人工智能院士高峰论坛~蒲慕明院士《脑科学与类脑智能研究》

    我正在参与CSDN200进20,希望得到您的支持,扫码续投票5次.感谢您! (为表示感谢,您投票后私信我,我把我总结的人工智能手推笔记和思维导图发送给您,感谢!) 新一代人工智能院士高峰论坛2019年 ...

  3. “人工智能+新媒体”论坛热议媒体智能之道,AI推荐系统成转型关键

    11月6日,第四范式主办的 "2018人工智能+新媒体论坛"在京召开.本次论坛聚集了众多资深媒体人士及AI行业代表,对人工智能与传媒技术相融合的创新案例进行了分享与研究.论坛上,针 ...

  4. 人工智能开源社区论坛----开源助力多领域AI生态发展| ChinaOSC

    ChinaOSC 2022 人工智能开源社区论坛----开源助力多领域AI生态发展技术论坛将于2022年8月20日13:00-17:00在陕西省西安高新国际会议中心召开.本论坛将围绕"开源社 ...

  5. 云脑启智 开源赋能|2021新一代人工智能院士高峰论坛暨启智开发者大会即将开幕

    由鹏城实验室.新一代人工智能产业技术创新战略联盟主办,华为技术有限公司.北京百度网讯科技有限公司协办的2021新一代人工智能院士高峰论坛暨启智开发者大会将于2021年12月19日-20日于深圳隆重开幕 ...

  6. 2018 新一代人工智能院士高峰论坛 总结文章

    新一代人工智能院士高峰论坛」开幕,概览中国人工智能企业最新技术成果 旷视科技首席科学家孙剑:如何打造云.端.芯上的视觉计算(含30张 PPT) | CCF-GAIR 2018 阿里怎样做城市大脑?华先 ...

  7. 不可错过的年度AI学术盛会 2021新一代人工智能院士高峰论坛暨启智开发者大会议程惊喜发布~

    2021年12月19日至20日,2021新一代人工智能院士高峰论坛暨启智开发者大会将在"科技之都"深圳隆重举行. 作为融合了人工智能行业两大高水平盛会的系列活动,此次大会由鹏城实验 ...

  8. 2022北京智源大会中关村昇腾人工智能产业分论坛:汇聚智慧星火 构建AI新生态...

    引言:纵观历史,人工智能技术的每一次跳跃都会向社会释放巨大的价值与能量.而今,我们正处于爆发式创新前夜,人工智能正与千行百业进行深度融合,并促推新技术.新产品.新产业.新业态.新模式诞生,成为下一轮产 ...

  9. 2022 CCF中国软件大会(CCF ChinaSoft)“人工智能安全专刊”论坛成功召开

    2022年11月25日,2022 CCF中国软件大会(CCF ChinaSoft)"人工智能安全专刊"论坛成功召开.本次论坛由中科院信工所孟国柱副研究员.中科院信工所陈恺研究员.华 ...

  10. 14位医疗AI专家齐聚一堂,「新一代人工智能院士高峰论坛」圆满落幕...

    2018年12月18日,由鹏城实验室.新一代人工智能产业技术创新战略联盟共同举办的「新一代人工智能院士高峰论坛」进行到第二天. 本次论坛以「『头雁』穿云,云脑启智」为主题,汇集多位院士.国内顶级科技企 ...

最新文章

  1. Rational工具介绍『转』
  2. 利用css3实现jQuery中的slideDown和slideUp效果
  3. Funnel-Transformer:让Transformer更高效地处理长序列
  4. leetcode 461. 汉明距离(位运算)
  5. 突发,这个国家进入紧急状态!数十年来最严重经济危机、每天停电13小时!外交部发出提醒...
  6. C++语言基础 —— STL —— 容器与迭代器 —— heap
  7. Android开发笔记(七)初识Drawable
  8. 今天去看招聘会了~~
  9. C++奥赛一本通排序题解
  10. 类型②typeof 操作符
  11. 一文搞懂JVM架构:java数据结构和c语言数据结构区别
  12. 计算机考苏州公务员考试,苏州公务员考试难度
  13. 倍福plc的型号_倍福模块选型
  14. JUCE框架教程(3)—— Component ClassGraphics入门
  15. 风吹衣袖,月上西楼- 一个技术人员的心声
  16. 写给XJTU计算机系大一大二的童鞋
  17. 知识图谱:R2RDF转换之D2RQ
  18. python color 颜色名称对照
  19. 结对项目-最长英语单词链
  20. ENVI-IDL中国官方微博

热门文章

  1. 阿里巴巴Java开发手册(原文地址)
  2. 快速在越狱iphone手机下定位app安装包并且导出的方法
  3. ROS机器人操作系统学习记录
  4. Matlab实现Hermite插值多项式
  5. 什么是城市大数据?大数据如何应用在智慧城市中?
  6. vue移动端实现电子签名画板
  7. 计算机系最好的985大学排名,2017年全国“985”大学排名及王牌专业全解析
  8. 配置修改Tomcat端口
  9. tomcat8下载时各个版本的说明
  10. Python基础语法01:缩进规则