此前我们多期《白洞计划》中,都在探讨以深度学习为代表的AI与产业接轨的细枝末节。

其中,数据难以收集、处理任务难、模型训练成本高等等,已经是老生常谈的槽点了。而在众多解决方法中,近期来被提到最多的词就是——“图网络”技术。

简单来说,就是基于图(Graph)数据搭建起来的神经网络。它的特点是,在一开始就能读懂数据,尤其是非结构化数据之间的种种隐秘联系。

比如深度学习看到一张照片,只知道“你和图中另一个女人长得像”,但图网络知道“你们长得像因为她是你妈并且此时内心还有点想揍你”。论逻辑推理能力,后者是不是厉害多了?

但图网络技术究竟该怎么训练?有哪些具体的应用场景?又有着怎样与众不同的坑?真的是让AI萌新们旧愁未解又添新愁。本期《白洞计划》专门寻访了以“图数据平台”实践交互安全的极验,以及其服务的技术应用方,来共同为大家揭开图网络在安全领域的神机妙用。

穿越生死门:

萦绕在直播平台头顶的安全之困

按照节目传统,我们本期邀请到的技术应用方,是一家直播平台。在交流过程中,对方的安全负责人孙总可真没少吐苦水,我们这才知道,原来花团锦簇、热闹非凡的直播平台背后,真实的生存环境和技术迭代的需求,简直是“南上加南”。

大致总结一下,目前直播平台面临的安全难题主要有两点:

一个是严峻的黑灰产“薅羊毛”现状。简单来说就是犯罪团伙通过批量账号观看直播,利用签到领福利、充当水军、领活动红包等形式攫取不当收益,消耗平台原本应该发放给主播和真人用户的奖励。但平台在排查问题账号时,如果不能及时快速准确地识别出异常行为,产生漏封、误封,都会造成一定的经营损失,或是影响平台的用户体验,比如说错误地给一个真人用户降低了视频码率。

另一个则是安全防御的投入产出平衡。尽管直播平台往往都会拥有自己的安全技术团队,但从与孙总的交流中我们得知,许多黑灰产或黑客们也在不断更新技术,利用算法攻击服务器、模仿真实轨迹等都已经是常见操作了。对于这种“长期抗战”,企业自身在产业场景行为数据的积累、算法模型的快速迭代等方面往往“心有余而力不足”,如果过度追求安全领域的天顶技术和持续对抗,又会过度消耗企业宝贵的现金资源。

可以说,如何应用数据、应用AI,进而帮助平台降低运营成本,维护健康的直播环境,提升网安保障的性价比,正在成为直播平台,也是千行万业长久生存下去的前提条件与新赛点。

图数据基座上的安全堡垒:

新兴网络防护需要怎样的AI?

上述问题为什么需要特别用图网络技术来解决?从极验的安全解决方案中,我们或许可以找到答案。

简单来说,图数据+深度学习所训练出的图网络,在新型网络安全业务中扮演了三个重要的角色:

第一重角色是“守卫者”。

最直观地表现在对平台运营安全的保障上。

在互联网领域存在许多欺诈行为或隐藏攻击行为,比如恶意爬虫窃取平台用户数据,亦或是金融领域一个村子的人组团诈骗借贷,或是电商领域恶意利用平台漏洞疯狂“薅羊毛”,如何识别、侦查这些异常行为,就成了一道难题。

而图网络的优势在于,能够针对一些“非结构化”的数据,发现它们之间的关联,进而更容易洞察用户的行为轨迹及意图。

比如说,许多黑灰产在攻击网站或App时都会采用一些自动化的脚本,更先进的还会模拟一些真实人类的行为轨迹,借助图数据平台对正常用户的行为数据进行分析建模,最终生成的神经网络能够更好地找出这些“工具”留下的把柄,做到提前预警,从而为平台的数据资产安全保驾护航。

第二重角色是“精算师”。

图数据加入神经网络的另一个好处,就是能够直观地提升平台的智能处理效率,进而有效地降低运营成本。

要理解这一点,来自极验交互安全实验室的闫先生为我们举了一个现实中的例子。

在服务直播平台的过程中,极验发现他们对于音视频流媒体的涉黄涉暴内容识别有很高的需求,稍有不慎就会面临审查、App下架整改等风险。但利用传统的深度学习图像分割技术,需要每一帧每一帧地进行处理、识别,背后对应的则是极高的算力成本。

如何对多维度的内容实现毫米级的精准识别,能够认知图像中复杂关联的图数据平台,采用分布式和并行训练的方式,对十亿级别的大图数据进行高效学习,能更好地适应此类企业的业务需求。

第三个角色是“激活酶”。

最直接的理解就是,作为关键媒介来激活企业深埋于数据库中的数据资产。

极验的闫先生告诉我们,目前还有大概60~70%的数据没有真正被大家所利用起来,原因之一就是里面有非常多的结构化数据,是传统深度学习神经网络很难处理的。

未来一旦激活了这些隐形资产,对产业价值和业务增长都将会是潜力的极大释放。

举个最直观的例子,社交网络就是最为典型的非结构化数据,A关注了B,B点赞了C的微博,D又转发了某个文章,人与人、人与内容、话题与文章之间都存在着千丝万缕的关系,很难用数据库的形式来储存。

而通过图数据建模平台的搭建,将这些关系型数据收集起来,进行上层的算法建模,就可以实现一些前所未有地分析。进而帮助平台改善用户体验,或者真正实现千人千面的商品推送等等,这些都会进一步激活产业对AI新的价值想象。

当然通过交流,我们也了解到了极验作为图网络技术的先行者与实践者,在现实中遇到的一些真实的阻碍。

其中最头疼的一个,就是客户层面的技术疑虑。

闫先生直言,刚开始接触对方直播平台的时候,他们对极验的产品是有一定疑虑的。一方面出于对图网络技术本身的不理解,另一方面则来自于技术与业务能否顺利耦合的困惑。

在此基础上,极验通过对直播行业的充分调研,比如分析平台的支出结构(一部分在宽带和CDN上,一部分在主播工资上),进而打造了交互模型打击黑灰产+内容模型提升计算效率,这样一个双效节省运营和工资成本的综合解决方案,才最终拿下。

极验也告诉我们,在今年7月份,他们刚刚发布了一款叫叠图的产品,基于GCN(图神经网络)来解决不限于安全领域的各行各业的业务难题。

由此看来,今天的产业智能化浪潮,需要的不仅仅是企业自身的认知迭代,AI技术也在一步步挑战更高的穹顶,突破自身的瓶颈。

与此同时,整个互联网和物理世界的数据复杂度也会越来越交融,也越来越复杂,无论是安全问题,还是其他诸如业务增长、体验优化,更优质的AI与技术服务,也孕育在这些变局之中。

点击下方“阅读原文”,立刻收听白洞计划第八期节目《图数据基座上的安全堡垒》,了解更多关于图网络技术的神奇之处。

想弄懂图网络为何如此强大,我们跟极验聊了聊|白洞战报相关推荐

  1. 想弄懂“中国制造2025” 不如来读本书

    过去的20年是消费互联网的黄金20年,未来30年是产业互联网的关键30年,产业互联网正在开启新一轮工业革命."中国制造2025"是当下最炙手可热的国家级战略概念之一.未来时间里,大 ...

  2. c++层次遍历_数据结构与算法,弄懂图的两种遍历方式

    1 引言   遍历是指从某个节点出发,按照一定的的搜索路线,依次访问对数据结构中的全部节点,且每个节点仅访问一次.  在二叉树基础中,介绍了对于树的遍历.树的遍历是指从根节点出发,按照一定的访问规则, ...

  3. 想看懂资管行业?不清楚有哪些资管产品怎么行!

    from:http://www.managershare.com/post/324685 最近 一份资管新规内审稿在网上流出 瞬间激起了极大的市场反响 统一监管标准,提高监管要求 资管行业何去何从,成 ...

  4. 一文弄懂Java中线程池原理

    在工作中,我们经常使用线程池,但是你真的了解线程池的原理吗?同时,线程池工作原理和底层实现原理也是面试经常问的考题,所以,今天我们一起聊聊线程池的原理吧. 为什么要用线程池 使用线程池主要有以下三个原 ...

  5. 程序员,想要彻底弄懂Redis,这15点你一定要明白~(纯干货)

    点击上方 好好学java ,选择 星标 公众号 重磅资讯.干货,第一时间送达 今日推荐:Java实现QQ登录和微博登录个人原创+1博客:点击前往,查看更多 作者:耿直的小码农 来源:https://s ...

  6. 图解!24 张图彻底弄懂九大常见数据结构!

    作者 | Amazing10 责编 | 屠敏 数据结构想必大家都不会陌生,对于一个成熟的程序员而言,熟悉和掌握数据结构和算法也是基本功之一.数据结构本身其实不过是数据按照特点关系进行存储或者组织的集合 ...

  7. 小白也能看懂的网络基础 | 44 张图搞定什么是连接设备?

    公众号关注"程序IT圈", 选择"星标",重磅干货,第一时间送达! 引言 欢迎来到网络世界,<小白也能看懂的网络基础>系列文章会从零开始帮助你构建网 ...

  8. 一张图弄懂java线程的状态和生命周期

    转载自 一张图弄懂java线程的状态和生命周期 上图是一个线程的生命周期状态流转图,很清楚的描绘了一个线程从创建到终止的过程. 这些状态的枚举值都定义在java.lang.Thread.State下 ...

  9. 三幅图弄懂EventBus核心原理

    前言 好多分析EventBus的文章,喜欢上来就贴源码,我看了好多次总是迷迷糊糊的,这次花时间彻底整理一下EventBus,发现EventBus核心其实就是三幅图,这三幅图涉及的是三个HashMap表 ...

最新文章

  1. linux 命令安装redis
  2. 百度地图-解决新版百度定位失败问题
  3. 复利计算1.0,2.0,3.0
  4. Spring的核心思想,总结得非常好!
  5. 【STM32】keil软件常用使用技巧
  6. git拉取分支报错:fatal:‘XXX' is not a commit and a branch ‘XXX' cannot be created from
  7. 腾腾流氓,云云更流氓(问微信怎样接入支付宝支付),手贱的赶紧点,你会感谢我的...
  8. 工作242:关于第二个git仓库提交代码
  9. 论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)
  10. partial关键字的含义和使用
  11. golang new与make的一点区别理解
  12. cuSPARSE库:(四)不同矩阵格式在内存中的存储方式
  13. python如何实现循环_如何构造python循环
  14. 生物聚集细胞生物化学反应的组织者Biomolecular condensates: organizers of cellular biochemistry
  15. 《Effective Java》第5条:避免创建不必要的对象
  16. 20145127 《Java程序设计》第四次实验报告
  17. 线性代数【19】叉积
  18. 硕士论文latex参考文献格式经验
  19. MySQL binlog时间异常分析
  20. UEBA架构设计之路3:复杂事件处理引擎

热门文章

  1. JavaBean和RMI
  2. ecology更换数据库后非标不起作用并且无法停用
  3. 西北大学计算机课表,西北大学课表.doc
  4. XML解析以及增删改查的操作6
  5. 关于Twitch视频回放录像的下载
  6. Excel文件加密方式有几种?
  7. Ubuntu 20.04安装Leap Motion问题总结
  8. 不是冤家不碰头:贝索斯和马斯克入选福布斯“全球最抠门亿万富豪”榜单
  9. 解决:The processing instruction target matching “[xX][mM][lL]“ is not allowed.中的声明中的编码伪属性问题
  10. 保密文件服务器,文件服务器部署方案之二:简单共享