撰文 | 王艺

编辑 | 宇多田

阿里云栖大会刚刚结束。作为中国最大的云平台,除传统云服务(如计算、存储、大数据、安全、通信)外,阿里云的触角已经延伸到 AI 技术领域。

目前,阿里云上的人工智能 ET 板块已经包含机器学习 PAI、语音识别与合成、人机对话、人脸识别、图像识别、以及印刷文字识别六大模块。

除这六大模块之外,近期,阿里云还将上线自然语言理解(NLP)模块。项目总负责人司罗也在今年云栖大会的现场分享中透露了这一消息。机器之心现场采访到司罗,与他谈了谈阿里在 NLP 技术上的底气。

对外开放技能:突破阿里自身场景的局限

从今年六七月份开始,本着阿里 iDST 部门对外赋能的使命,其中,由司罗带领的 NLP 团队开始着手「上云」。

与此前的对内服务大为不同,其中最主要的变化便是场景切换。阿里主攻电商、金融、娱乐场景,而云上的客户却涉及到各行各业。对于现阶段各知识领域还存在显著隔膜的 NLP 技术来说,存在不小的挑战。

但实际上,在这次「上云」之前,团队已经有对外服务的经验。

OpenSearch 是阿里云推出的一款云搜索服务,调用 OpenSearch 的用户能够让自己的网站、应用拥有搜索功能。使用这项服务的用户涵盖母婴、诗词、菜谱等五花八门的领域,给司罗团队提供了很好的练兵场,也是试金石。

对于 OpenSearch 上的分词技术,团队提供一套基础算法,并在算法上构建了自适应的模型体系,如金融、社交、新闻等。团队会根据用户网站不同的组织层次需求,为用户挑选最合适的模型,并同时提供产品可视化的配置,用户可以在上面独立配置自己的词表。

除 OpenSearch 外,团队在专有云方面也已经对外服务客户,如通过新闻、用户评价等帮助茅台酒厂进行舆情分析,帮助公安、法院等部门更快地查找备案资料等。

阿里云上 NLP 技术的输出将采用类似 OpenSearch 的模式,但服务类别将有所增加。在「上云」后的第一个阶段,阿里 NLP 提供的服务将包含电商实体识别、情感分析、反垃圾、地址解析四个底层技能点。

服务分几个层次提供,对于已经拥有某些模块的技术,且需要其他模块技术的公司(例如有分词技术但缺乏依存关系技术的互联网公司),阿里云 NLP 将提供技能点级的支持;对于缺乏 NLP 应用级技术的公司,例如反垃圾、情感分析等,阿里云 NLP 提供应用层面的支持;对于需要系统级解决方案,例如搜索、推荐系统的客户,阿里云 NLP 也有对应的服务模式。

值得一提的是,iDST NLP 的团队刚刚获得了 IJCNLP(国际联合 NLP 大会)语法纠错评测第一名的成绩。司罗认为这是对阿里 NLP 技术的一次有力证明。因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,对团队的综合技术实力是一次考验。

司罗

司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。「感知层面的事情越来越成熟了,认知层面也得跟上了。」他说。

但在他看来,认知层面的事情依然路漫漫其修远兮。他很爱举的一个例子是,你问一个聊天机器人「喜欢吃辣吗?」它可能会说「辣的那么恶心,我才不喜欢。」你接着问它「你喜欢吃四川菜吗?」它可能又回答你「四川菜是我的最爱!」

目前聊天机器人绝大部分是数据驱动,司罗认为要实现真正的语义理解还需要 5-10 年的跨越。「语义理解这回事儿现在学界都还不 OK 呢。」他说。另外现在的 NLP 技术鲁棒性不够,对于新闻语料来说效果不错,但对于日常对话,效果就很差。

虽然有很大的鸿沟摆在面前,但司罗认为这是必须要跨越的。「因为 NLP 技术是达到强人工智能的路上必须攻克的关键节点。」司罗说。

从「业务」到「技术」:我们获得了同事的认可

在将 NLP 拿到阿里云上对外开放之前,司罗带领的 NLP 团队其实走过了一段并不容易的「从技术到业务的沉淀之路」。换句话说,他们的技术,首先必须得到阿里内部各个业务线的使用与认同。

毫无疑问,司罗是阿里巴巴数据科学研究院(iDST)的几位元老之一,但在 2015 年 7 月,iDST 暂时解散,包括司罗在内的科学家们都必须深入到业务部门实地考察「钱是怎么来的」,这段经历被 iDST 的创立者兼现任院长金榕称作「上山下乡」。

当时,司罗跟随金榕进入搜索事业部。今年 3 月 iDST 宣布重组时,司罗才被任命 iDST NLP 团队负责人。

当记者用「风雨飘摇」一词来形容 iDST,司罗笑了,说「『风雨无阻』可能更合适一些。」虽然体系架构一直在变化,但司罗认为,阿里的 NLP 技术一直在积淀。

在一个以业务为导向的公司积淀技术并不容易。司罗回忆道,曾经集团各条业务线都有自己的 AI 实力,各做各的。由于在业务线中,AI 模块只是业务链条中的一环,难免会有「这一环好用就行,赶紧去做下一环」的情况。工作 quick and dirty 地做完,不仅不利于产品的优化,对集团内部人力财力也是一种浪费。

iDST 的出现就是为了解决这一问题。大约一年前,马云提出「大中台、小前台」战略,希望各个业务线在一个强大的、动态的支撑下,仅用几个人手就能搭建起稳定的前台服务。金榕在曾经一次接受机器之心的采访中提到,希望能打造 AI 技术的基础模块,从底层驱动创新,支持集团各业务线的 AI 技术,司罗正在做的就是这样一件事情。

这有些类似项目制与产品制的区别。项目制随着业务的爆发,所需人力也随之爆发,且项目间的经验很难复用、累积。产品制更轻、更巧、更专,只需对不同的项目需求做少量定制化,在成本方面更加可控,在技术方面也能有所积累。

2016 年 10 月,对于司罗以及阿里 NLP 来说是一个重要的时间节点。此前,司罗所带领的 NLP 业务团队忙于承接一个个「项目」,先后参与过「聚划算」、「AliOS」、「淘宝头条」、以及淘宝唯一能够主动触达用户的渠道「消息推送」等项目。

那时候,司罗领到任务——将 NLP 的「大中台」建立起来,也就是说,集团希望在 NLP 技术方面,各业务线不再各自为营。

此时,两大问题摆在他面前:如何说服团队成员从「业务」转向「技术」,以及如何让其他业务线使用他的团队的技术。

这让他一度很头疼。对于团队成员,做业务涉及到上亿的引流成交量,成员能够从中获得很大的成就感。司罗和队员一个个聊,「我跟他们说,大家都不会在一个业务上做一辈子,等你走的时候,业务是不会跟你走的,但是你自身拥有的技术是会跟你走的。」司罗没有用太多高大上的说辞来说服他的队员。

司罗认为,能留在一个人身上的有两样东西,一个是技术的积淀,另一个是人与人互相的关心与信任,俗一些的说法就是人脉。而这种关心与信任正是司罗团队后来在集团内部拥有一百多个使用其技术的业务方的基石。

「用你的技术大家会有顾虑。」司罗谈到,「首先业务方会想,我为什么要用你的?用你的你过几个月不支持了怎么办?用你的是不是证明我做的不好?等等很多问题。」

人之常情。「我们没有行政命令的协助,如果 CEO/CTO 下令说所有人都要用我们的技术,那当然好推广。」对于这些看似不可解的矛盾,司罗坦言,这种时候只能用实力说话。团队在算法准确率、工程稳定性、甚至支持文档的力度、用户答疑等方面都下足了功夫。

团队在集团内部的推广动作依赖使用者的正反馈。司罗说,最开始的几个攻坚战一定要打好,比如给优酷土豆做的分词,团队投入了很大的力量,优化了原本的分词结构,取得了集团内部的信任,也给团队以信心。同时 iDST 和搜索工程技术质量部门、翻译、神马搜索等团队在工程和多语言等方面展开合作,希望能够共同优化算法。

「技术有通用性,我把最开始的技术移植给其他业务方,越来越多的业务方加入,团队的成就感也就越来越大。这是一个正反馈的过程,对吧?」他笑着说道。

司罗举例说,电商场景的分词一直是棘手的问题,因为每天都会涌现层出不穷的新品牌、新产品、新型号。团队创新性地将用户搜索时输入的字段用在分词过程中。

例如用户搜索「索尼电视」,系统不知道「索尼」是一个品牌名。但当系统发现用户在搜索结果中点击了「索尼 Led 电视」这一选项时,就会意识到「索尼」是一个牌子。此举将电商分词的准确率提高了 10-20%。

「业务方没有理由去做这种层面的精细优化。」司罗说,「他们所在的单一业务线可能每天只有 20 万的调用量,却要分析几十亿的搜索与点击数据,这对他们来说不值得,也没有这么大的精力。」

2017 年 1 月份,司罗团队的 NLP 技术开始上线供集团内部使用。据他介绍,当时,团队还是有点担心没有人买账的,同学们不确定自己下的功夫能不能产生价值。

好在结果是令人惊喜的,司罗说,「我们蛮幸运的。」从 1 月到现在为止 9 个月的时间里,司罗团队的技术支持了几乎整个阿里生态,包括电商、蚂蚁金服、菜鸟、大文娱等。目前业务方有 100 多个,日调用量达 400-500 亿。

司罗回忆道,今年三月,阿里上个财年结束时,团队做了一次简单的推广,吸引了最初的 10-15 个业务方。此后业务方数量的增长速度开始加快,五月份时已经有四五十个;到八月份有 80 多个;在九月底,半个财年结束时,团队的业务方成功突破一百个。

司罗认为这是一个非常振奋人心的过程,给团队打足了勇气:

「我们内部有一个平台用户群,已经有 300 多人。大家在这个交流群里对平台的使用以及算法技术问题进行讨论,群里一直都很热闹,这让我很高兴。」

从某种程度上来说,司罗认为恰恰是从集团内部获得的认可,让整个团队有勇气将自己的技术放到阿里云上,为更多的企业用户去赋予 NLP 技能。

阿里iDST NLP负责人司罗:NLP技术怎样一路走到阿里云相关推荐

  1. 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄

    编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲.从今 ...

  2. WAIC | 阿里副总裁司罗:大规模语言模型如何赋能行业、创造价值

    在 WAIC 2021 AI 开发者论坛上,阿里巴巴副总裁.达摩院语言技术实验室负责人司罗发表了主题演讲<大规模语言智能为商业搭建桥梁>.在演讲中,他主要介绍了阿里巴巴如何搭建自己的自然语 ...

  3. 阿里iDST研究员华先胜:图像搜索的下一步是可以索引整个城市

    导读:阿里的"刷鞋购物"在国内外引发众多关注,其背后支撑的技术正是来自阿里iDST华先胜团队图像搜索技术的运用. 近日,计算机图像视觉顶级会议CVPR 2017在美国夏威夷举办, ...

  4. 阿里巴巴副总裁司罗:达摩院如何搭建NLP技术体系?

    出品 | AI科技大本营(ID:rgznai100) 司罗把人工智能分为四个层面.在计算智能层面,近年来取得了一定成就,而在更高层面的感知.认知和创造智能上还在探索中. 感知智能是指找出自然界的实体, ...

  5. 阿里巴巴副总裁司罗:达摩院如何搭建 NLP 技术体系?

    在 CSDN 主办的第三届"AI 开发者大会(AI Procon)"主会上,作为阿里巴巴副总裁.达摩院语言实验室首席科学家.ACM 杰出科学家,司罗在题为<为商业搭建语言桥梁 ...

  6. AIProCon在线大会笔记之阿里达摩院司罗:为商业搭建语言桥梁

    AIProCon在线大会笔记 为商业搭建语言桥梁 自然语言处理 翻译技术平台 NLP自学习平台 语言模型 总结 AI学习与进阶实践 智慧教育 AI创业与投资 AI行业新趋势 计算机视觉技术与实践 大数 ...

  7. 阿里妈妈品牌广告中的 NLP 算法实践

    导读:本次分享的主题为阿里妈妈品牌广告中的 NLP 算法实践,主要内容包括: 1. 品牌广告业务模式与技术架构的简要介绍 2. NLP 算法在品牌搜索广告中的实践,以两个具体的算法问题展开:品牌意图识 ...

  8. 专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意?

     专访阿里 iDST 语音组总监鄢志杰:智能语音交互从技术到产品,有哪些坑和细节要注意? 雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正 ...

  9. NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略

    NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介.发展历史.案例应用之详细攻略 目录 语音识别技术(Automatic Speech Recognitio ...

最新文章

  1. HDU 6301.Distinct Values-贪心、构造字典序最小的数列 (2018 Multi-University Training Contest 1 1004)...
  2. 在Vista操作系统中通过manifest文件使VC应用程序获得管理员权限
  3. IOS使用MessageUI Framework 发送短信息
  4. linux apache 跨域,解决nginx/apache静态资源跨域访问问题详解
  5. 上次那个上门要源代码的女网红,后来咋样了?
  6. SDN,你必须了解的基础知识【定期更新】
  7. 二级计算机java2017级_2017计算机等级二级考试java练习题及答案
  8. HDU 4622 求解区间字符串中的不同子串的个数
  9. Spring Bean的循环依赖解决方案
  10. 小程序mpvue图片绘制水印_基于mpvue小程序使用echarts画折线图的方法示例
  11. 一文搞定移动端适配!
  12. 83.均衡策略:round-robin
  13. php 唤醒http进程,真正的PHP多线程(绝非fork或者用http再开进程)_PHP教程
  14. Java的下载与安装简易教程
  15. vue-cropper 自定义旋转任意角度
  16. 戴尔创业节丨高效编程利器Vostro低至2099!双11提前享!
  17. 项目十大管理(三)进度管理
  18. linux红帽8怎么安yum,RedHat Linux 8本地Yum源配置方法
  19. win10怎么隐藏桌面计算机,Win10隐藏秘技大公开
  20. 配置OSPF负载分担

热门文章

  1. pyscripter支持python什么版本_PyScripter|PyScripter(Python集成开发环境)下载v3.4.2.0官方版64位/32位 - 欧普软件下载...
  2. 洽谈国内单机游戏下载站
  3. 最新阿里巴巴面试题合集附带答案,答对70%你也可以进阿里(天猫+蚂蚁金服+阿里巴巴)
  4. PHP中Linux知识,超全面的Linux基础知识整理
  5. 装系统时遇到的一些坑
  6. 跨平台Office文档预览原生插件,非腾讯X5,支持离线,稳定高可用
  7. 采用分治算法迭代计算最长公共前缀问题(python)
  8. 小样本学习记录————文本中特征空间的数据增强MEDA: Meta-Learning with Data Augmentation for Few-Shot Text Classification
  9. 古琴入门之基本指法(右手)二
  10. 怪树林:胡杨的前世“血战场”