欢迎访问网易云社区,了解更多网易技术产品运营经验。

10月16日,2018年 AIIA人工智能开发者大会在苏州举办。会议邀请了国内外人工智能产业知名人物、国家政府主管部门、行业内顶尖企业、知名学者代表、开源社区优秀贡献团队及个人,共同交流了技术现状趋势、生态建设经验以及开源社区运营。

网易云易盾CTO朱浩齐

在《AI安全分论坛》,网易云易盾CTO朱浩齐受邀出席,并分享了《人工智能在内容安全的应用实践》主题内容。

随着政策的收紧,“内容安全”成为各大平台、网站的“心病”。2017年以来,因为内容安全问题而被勒令下架、停播、整改的事件相信各位还历历在目。伴随着人工智能的快速发展,以往依靠人工审核的传统方式已经无法满足庞大体量的平台、网站的需求。

那么如何依靠人工智能避开“内容安全”的坑?以下让我们一探究竟。

人工智能技术的初步应用

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化,内容安全已经成为互联网企业生存和发展的生命线。朱浩齐表示,国家多次强调互联网不是法外之地,利用网络散布色情材料、进行人身攻击、兜售非法物品等言行要坚决管控,因此绝不能任其大行其道。

然而,传统的内容技术已难以满足企业日益增长的安全需求,就拿图像来说,传统的色情识别技术为例,就经常会存在误判、错判、漏判等情况。

而基于深度学习模型的图像分类,则可以实现更高的准确率,以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑:下载集群和并行计算,然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理,然后给出结果处理。这一套流程下来,平均时长仅在500ms以内。

在文本内容识别上,之前的传统技术存在着各种各样的问题:

变化多:垃圾变种形式多样,内容重复率低;规则系统需要及时维护庞大的规则库才能较好的拦截,人工审核量巨大。

内容短:1~2句话居多,词汇量少;常规的文本分类模型不适用。

多语义:部分敏感词有多重语义;容易误判正常语境下的内容

词序敏感:同样的词在不同词序下会有不同的语义;现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理,包括垃圾内容变种智能识别与修正、多意义上下文短文本垃圾检测、Deep Learning垃圾检测等。

具体是:

垃圾内容变种智能识别与修正,能够结合上下文,智能识别同音、拼音、形近、拆字、符号等变形内容。

通过事先收录的拼音库、形近字库、拆字库、符号库等字典,找出有变种嫌疑的内容,再结合上下文语境信息,使用Machine Learning技术判断是否变种并进行修正。

汉字有几万个,人工收集形近字耗时耗力,而且不全面。通过算法计算汉字的相似度,快速找出所有的形近字,再进行人工确认,保证精准度。

同样一个“威”信,一个是“威”信的变种,一个不是,必须结合上下文语境进行判断。

多意义上下文短文本垃圾检测,使用语义向量的方法识别垃圾语境,再结合垃圾关键词识别短文本垃圾,有效解决词汇量少、多义词等技术难点。

在这部分,基于深度学习模型的图像分类,易盾会使用自主研发的rankDoc算法自动挖掘出不同垃圾类别的数据集。另外,还会在不同垃圾类别的数据集上分别学习词向量模型,利用这些模型,结合机器学习方法在不同垃圾类别数据集上挖掘出每个词对应的上下文信息。

此外在检测时,对包含敏感词的文本会根据上下文信息和人工定制的规则,判断敏感词是否为垃圾语义,并进一步给出全文的检测结果。

检测样例如下所示:

Deep Learning垃圾检测,在语义向量、词性识别等NLP技术的基础上,利用RNN解决词序敏感问题。

易盾对人工智能技术的再优化和探索

但是仅依靠现有的人工智能技术是难以保证百分之百的内容安全的,干扰、特征小、尺度等因素下,昵称、头像、弹幕、打招呼、图床、足迹等等无孔不入的垃圾信息不断侵蚀着内容安全系统。因此,只有不断进化才能在技术层面加强防御实力。

为此,网易云易盾在人工智能技术的定制、算法、工程等方面进行了继续优化。

首先是提供了更为精细粒度的分类模型,筛选内容具体到6大类、20+场景、80+小类,在违规审查上更为严苛。此外,建立了人-物交互检测网络,关注人体有关部位及其附近物体,提取关键线索信息,能够较好地识别出“人-动作-物体”三元组信息。

如上所示,人-物交互检测模型在场景理解上的表现,包括视觉注意力机制(attention)、视觉关系检测(visual relationship detection)以及“人-物”交互检测(human-object interactions)。

通过持续的对抗训练,网易云易盾基于深度学习模型的图像分类技术不仅可以解决微小扰动对于神经网络的欺骗,而且可以对模型上线流程、对抗样本进行准确的稳定性评估。

图片来源:Beyond Adversarial Learning-Data Scaling Attacks in Deep Learning Applications

此外,音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类,对语音事件进行检测和识别,并且返回文本进行文本过滤。

基于以上的功能,网易云易盾还做了定制化的模型,根据业务需要,将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后,会根据需要进入基础服务阶段或定制服务阶段。模型阶段下,基础分类网络下数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测,定制分类网络则直接进入目标检测。

此外,网易云易盾也在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升,包括增加或即将增加藏语、维语、泰语、印度语等语种识别;提升直播、短视频的处理效率;密切配合监管部门,不断完善内容安全标准;并且不断优化审核系统、培养审核团队。

未来

未来,网易云易盾内容安全服务会遵守跨媒体智能、用户行为分析、高度定制化模型的技术路线,致力于实现更为精准高效的服务体系,满足不同企业的业务所需:

跨媒体智能:理解文本、图片、视频、音频的内容后再进行安全分析;

用户行为分析:收集更全面的用户行为数据,配合用户内容数据进行审核过滤;
高度定制化模型:紧贴监管部门政策法规、满足客户实际需求。

“作为网易云旗下的一站式安全服务,网易云易盾坚持提供可靠的内容安全服务。”分享最后,朱浩齐谈到,未来他们将继续认真打磨细节,保持足够的耐心来持续迭代产品,将这种工匠精神发扬光大。此外,“业务仍然重于技术”,技术会进步,业务才是核心。

网易云易盾依托团队20年的技术积累及对网易数十条业务线的保障经验,拥有海量特征库和成熟的安全机制,并结合超强云计算及人工智能技术,形成对游戏、金融、电商、娱乐等场景化解决方案,目前已服务集团内外上千家客户。

点击免费体验网易云易盾内容安全解决方案。

更多网易技术、产品、运营经验分享请点击。

文章来源: 网易云社区

如何通过人工智能“避开”内容安全的“坑”?相关推荐

  1. 如何通过人工智能“避开”内容安全的“坑”? 1

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 10月16日,2018年 AIIA人工智能开发者大会在苏州举办.会议邀请了国内外人工智能产业知名人物.国家政府主管部门.行业内顶尖企业.知名学者代表 ...

  2. 活动预告丨易盾CTO朱浩齐将出席2018 AIIA大会,分享《人工智能在内容安全的应用实践》

    本文来自网易云社区 对于很多人来讲,仿佛昨天才燃起来的人工智能之火,转眼间烧遍了各个角落,如今我们的生活中,处处渗透着人工智能.10月16日,2018年 AIIA人工智能开发者大会在苏州举办,网易云易 ...

  3. 活动预告丨易盾CTO朱浩齐将出席2018 AIIA大会,分享《人工智能在内容安全的应用实践》...

    本文来自网易云社区 对于很多人来讲,仿佛昨天才燃起来的人工智能之火,转眼间烧遍了各个角落,如今我们的生活中,处处渗透着人工智能.10月16日,2018年 AIIA人工智能开发者大会在苏州举办,网易云易 ...

  4. 公司取名避开这3个坑,通过率或可提升99%!

    点击上方蓝字关注我们 想注册企业开公司 取名是企业诞生的第一步 拉着亲朋好友想破脑袋.一顿讨论, 终于灵光乍现取了个好名字, 兴冲冲的跑去注册, 却惨被拒绝? 企业取名避开以下3个坑,提前准备3-5个 ...

  5. 注册公司避开这3个坑,通过率提升99%!

    想注册企业开公司?取个好名字是企业诞生的第一步!拉着亲朋好友想破脑袋,几番讨论,终于灵光乍现取了个满意的名字,兴冲冲跑去注册,却惨被拒绝?企业取名避开以下3个坑,提前准备3-5个备选名称,通过率或可提 ...

  6. AI+5G:2019.03.31第11届中国(深圳)IT领袖峰会【IT新未来: 5G与人工智能】内容概要

    AI+5G:2019.03.31第11届中国(深圳)IT领袖峰会[IT新未来: 5G与人工智能]内容概要 导读 5G+AI双核启动会更加珠联璧合.相得益彰. IOT 采集数据 → Deel Learn ...

  7. 『全球化产品』应该要避开的几个坑

    全球化的浪潮已经到来,越来越多的中国公司正在扬帆出海.根据AppAnnie的统计,目前Google Play中Top 10的移动APP开发公司,有4家来自中国.但是,海外市场相较于国内市场而言,也存在 ...

  8. 猎豹产品经理:「全球化产品」应该要避开的几个坑

    全球化的浪潮已经到来,越来越多的中国公司正在扬帆出海.根据AppAnnie的统计,目前Google Play中Top 10的移动APP开发公司,有4家来自中国.但是,海外市场相较于国内市场而言,也存在 ...

  9. 七牛云:用人工智能为内容安全保驾护航

    近日,在上海召开的2018年世界人工智能大会(2018 WAIC),吸引了来自全球的人工智能顶尖科学家.中外院士.百位国内外龙头企业CEO.本届大会主要从技术.产业.应用等角度,对人工智能技术和产业的 ...

最新文章

  1. Linux命令(基础)
  2. 前端开发我为什么选择cordova
  3. 一个jstack/jmap等不能用的case
  4. java Dated Dateformat Calendar
  5. 【今日CV 视觉论文速览】 04 Dec 2018
  6. NDK编译php,Android NDK编译常见错误及解决方案
  7. 小米8ios图标包下载_小米手机中这么实用的隐藏功能,知道的人居然那么少?真可惜...
  8. 居中百分比宽高的元素
  9. 学习周刊-2021年第19周
  10. linux捕获鼠标点击事件文件,Linux捕捉鼠标事件和键盘事件的方法
  11. arduino 联动ULN2003驱动板营造夏日炫酷小风扇
  12. 404页面是什么意思?怎么正确设置?
  13. 小白网卡带宽限速神器:wondershaper
  14. 华为编程决赛后的感想
  15. Android开发之最新Android Studio推送代码到最新GitHub教程 | Android Studio绑定GitHub | AS令牌登录GitHub | 创建GitHub令牌
  16. 【雷达原理】FMCW雷达简介
  17. ker矩阵是什么意思_矩阵分析(一):空间变换与基变换
  18. 手机拍照上传图片旋转角度问题
  19. 操作系统的作用是什么?目前主流的操作系统有哪些?主要特点是什么?
  20. 模块化开发一个电子商务网站

热门文章

  1. js-ES6学习笔记-Iterator和for-of循环
  2. Python库cx_orcal 在64位win7上的安装记录
  3. linux修改ssh端口
  4. PingingLab传世经典系列《CCNA完全配置宝典》-2.5 RIPv2基本配置
  5. 手机验证码倒记时函数
  6. ECMAScript Query实例
  7. .NET防SQL注入方法
  8. C/C++中Static的作用详述
  9. Java计时器Timer和TimerTask用法总结(源码)
  10. 甲骨文第四财季SAAS和PAAS收入增长66%