金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

相信在座各位网上冲浪时,总会遇到一些“葬爱家族”式的文字:

“胃♡”、“叩—裙”、“9え”、“发嘌”……

这些词语的出现,不单单是追求个性这么简单,更多的是为了规避系统排查,以便发送成千上万条“垃圾信息”。

这样的情况在淘宝、旺旺等平台上泛滥成灾,堪称互联网时代的“牛皮癣”。

而有这么一位叫刘翔宇的博士,他和团队在阿里巴巴每天的工作,便是扫除诸如此类的垃圾

这位博士用AI“扫垃圾”

“垃圾清理人”面对的不是散兵游勇,而是黑灰产的团伙作战。

刘翔宇这样介绍道:

他们应该是专业团伙,按照攻击时间,可以看出他们每天也有固定的上下班时间,不少人应该是学计算机相关专业出身的,甚至是像我们一样做过安全防控的人,这些人对安全防控非常了解,会用智能化手段对抗,比如他们会发测试信息,对我们的拦截做试探再做调整。

尤其是“双11”大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。刘翔宇说:

临近大促节日的晚上,垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明,知道‘双11’期间用户最活跃,这时候骚扰用户感觉效果最好,这就需要我们提前做好预案防控,把他们赶出去。

不仅如此,这种行径还会像病毒一样,发生“变异”

也就是刚才提到的那种情况,用音近、形近或语义相近的字词代替,让系统无法快速识别。

面对这种情况,“垃圾清理人”也需要升级装备,更好的清除网络垃圾。

于是,在这些算法专家们的努力下,平台利用神经机器翻译多模态词嵌入技术,不断增强垃圾文本内容风险识别系统的性能。

刘翔宇介绍:

基于主动生成的对抗平行语料,利用神经机器翻译技术,构建对抗纠错模型,可消除黑灰产发出的内容对抗扰动。

同时,利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征,并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性,可进一步提供系统识别准确率。

现在,他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于98%,可有效新增识别变异违规文本内容50%以上。

此外,算法专家还开发了“变异垃圾语言”翻译功能,系统可以将“变异信息”翻译回正常语句。

值得一提的是,刘翔宇和团队成员的技术成果,还获得了国际顶尖AI会议的承认,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。

关于刘翔宇

2016年,香港中文大学博士刘翔宇毕业后来到了阿里工作。同一年,《网络安全法》和《国家网络空间安全战略》正式通过,社会对于网络环境治理和网络安全的关注度迅速飙升。

刘翔宇随着这股浪潮加入了阿里安全。起初,他做着基础安全的研究。

后来,慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内容安全治理。

如果说阿里巴巴是座城,刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。

对于清扫垃圾内容的“刘翔宇”们而言,城太大,人力不可能覆盖每一个角落。

如何对这些垃圾信息做到秒级处理,同时误判率必须在万分之五以下,刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。

现在,刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法,每日已能清理百万级的垃圾信息。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!欢迎AI从业者、关注AI行业的小伙伴们扫码加入,与50000+名好友共同关注人工智能行业发展&技术进展

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

博士在淘宝“扫垃圾”相关推荐

  1. 无惧灵魂拷问!淘宝扫一扫助你不再扔错垃圾!

    自7月1日上海正式实行垃圾分类开始 魔都人民天天经受着这样的灵魂拷问 你是什么垃圾? 面对有史以来最严的垃圾分类(个人扔错最高罚款200) 机智的魔都人民也是八仙过海,各显神通 面对这样的情况,此等情 ...

  2. 在系统中集成淘宝扫码登录

    在系统中集成淘宝扫码登录 在系统中集成淘宝扫码登录 申请二维码并存入数据库 在手淘首页搜索框中输入口令,并搜索 点击确认登录后,系统中即可获取到cookie相关信息 在系统中集成淘宝扫码登录 为了在公 ...

  3. 全球首个AI设计药物诞生,淘宝新增垃圾识别功能……

    图灵周报:精选AI行业一周大事件,从良莠不齐的行业资讯中挑选出最有价值的信息,配上专业点评,值得你细读.品味. 1 全球首个人工智能设计药物开始人体试验 据报道,澳大利亚弗林德斯大学的研究团队利用AI ...

  4. 一文详析微信和淘宝扫码登录背后的实现原理!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:imtech my.oschina.net/u/4231722/blog/3 ...

  5. 面试官:说说微信和淘宝扫码登录背后的实现原理?

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | my.oschina.net/u/423172 ...

  6. 面试官:聊聊微信和淘宝扫码登录背后的实现原理?

    本文来源: my.oschina.net/u/4231722/blog/3154805 <Java工程师面试突击(第3季)>重磅升级,由原来的70讲增至140讲,内容扩充一倍,升级部分内容 ...

  7. 微信和淘宝扫码登录背后的实现原理

    点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 源码精品专栏 原创 | Java 2019 超神之路,很肝~ 中文详细注释的开源项目 ...

  8. 阿里面试官:分别说说微信和淘宝扫码登录背后的实现原理

    作者:imtech my.oschina.net/u/4231722/blog/3154805 1.引言 扫码登录这个功能,最早应该是微信的PC端开始搞,虽然有点反人类的功能(不扫码也没别的方式登录) ...

  9. Web自动化测试淘宝 扫码登录与客服聊天(Python)

    是这学期的作业,由于淘宝有反爬机制,所以账密登录一定会失败,只能扫码.编写的时候网上资料不多,而且找到的都不可用.我自己编的程序是非常非常简单,非常非常基础的.仅供参考,如果运行不了我也不知道怎么回事 ...

最新文章

  1. 多重继承_多重继承和菱形问题
  2. Tomcat-上传文件路径填坑
  3. docker php伪静态无效,docker 安装 thinkphp+nginx
  4. IOS设置导航栏返回按钮,并添加事件返回主页面
  5. mysql 备份的脚本
  6. cw2vec:蚂蚁金服公开最新基于笔画的中文词向量算法
  7. OWA2003隐藏附件病毒提示的方法
  8. Lync server 2013新建持久聊天室提示用户未启用SIP
  9. Java最准确的获取当前一周开始时间和结束时间
  10. 163邮箱无法通过POP3接收邮件
  11. 网口压线顺序_网线水晶头接法顺序_网线水晶头接法口诀
  12. Vue-生命周期(函数)
  13. OpenCV打开摄像头截图
  14. 定制海报、AI扣人像小程序
  15. 顶级黑客泄密事件啼笑皆非
  16. gnuplot 使用示例
  17. 用Python画一棵分形树
  18. python 期货现货差价监测_期货现货价差小工具——天勤量化(TqSdk)
  19. 彻底删除微软拼音输入法这个讨厌的家伙
  20. 为什么国内搜索不到国外服务器网站?

热门文章

  1. 什么是C ++ 11中的lambda表达式?
  2. 如何检查变量是否是JavaScript中的数组? [重复]
  3. 从输入字段读取属性时,HTML编码丢失
  4. LeetCode集锦(八) - 第26题 Remove Duplicates From Sorted Array
  5. vue移动端优秀框架收集
  6. CentOS6.5下Redis安装与配置
  7. 转载:Quartz.NET 入门
  8. 设计模式(创建型模式)——单例模式(Singleton)
  9. 浅谈协同工作流的分布式应用
  10. Linux远程拷贝下载文件