搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文

近期，中国第二大搜索引擎——搜狗搜索在中文自然语言处理有了创新性进展，大幅推动机器对中文语言的理解。搜狗搜索柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入（Radical Embedding）”的学术论文，被国际自然语言处理与计算语言学领域最高级别的学术会议ACL（Annual Meeting of the Association for Computational Linguistics）录取，此论文首次提出了基于字根的中文自然语言处理的深度学习技术，作为该领域前沿的创新研究成果，得到了全球相关领域专家的高度认可，并引发了广泛讨论。

深度学习的基础便是对自然语言的分析，而进行中文自然语言处理极为困难的主要原因在于，中文在文本和对话等各个层次上会存在各种各样的歧义或者多义，同一个字、词在不同语境中的涵义千差万别，不同断句方法让句子表意差异悬殊等各种问题，让中文自然语言处理成为行业挑战。

搜狗数据科学研究院首次提出了“字根嵌入”概念，这是世界上第一项基于字根的中文自然语言处理的深度学习技术，也就是将“字根作为中文语言处理的最小单位进行研究“。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量，进而把汉字也表示为向量，作为基于深度学习的中文自然语言处理技术的基本单元，让中文更易被精准计算。这也意味着，中文千变万化的表述可以被机器进行处理，计算出其背后含义。

经过测试，采用“字根嵌入”新方式计算后，机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升，这也证实了“字根嵌入”可以作为统一中文自然语言处理的基本单位的可能。

[嘉宾采访]

搜狗在机器学习，特别是深度学习领域，有哪些成绩，比如在产品中运用的广泛程度以及对于产品性能改进做出的贡献，未来希望攻克的领域有哪些？

柳：首先，我们在搜狗搜索和广告方面，利用词根嵌入（类似英文的word embedding）、用户的点击数据，进行监督学习（supervised learning）,相当于建立一个比较大的神经网络之后进行匹配，深度学习使得广告排序更合理。

其次，搜狗不断强化搜索技术，在中文信息处理、图像理解和语音识别等领域积极发展基于深度学习的人工智能技术，并成功应用于通用搜索排序优化、识图搜索、语音搜索等。仅在语音搜索领域，搜狗语音识别准确率在最近一年内提升40%，用户语音请求搜索数提升超过3倍。而搜狗识图搜索则成功将其应用于图像识别领域，通过模拟人认知图片的过程，多层次地模拟和学习，大幅提高了图片分类和识别的准确性。截至目前，搜狗深度学习技术已经积累千万量级的模拟训练数据，达到了行业领先水平。

那个时候还停留在字和词的层面上，现在这篇文章推进到了更小的以字根为单位？

柳：当时我们做的工作，引导我们进行了这样的思考：国内比较火的算法，很多都是用国外的英文的特点，用更多的机器进行的研究工作，但是并没有考虑中文语言的特点，中文和英文分属于不同的语系，我们认为可以用算法对此专门进行研究。此外，中文有几千年的悠久文明，我们也希望用这种方式对中文进行文化的传承。古代的说文解字，可以把文字分解成很深的渊源，我们团队也是出于对祖国文化的好奇，希望对中文文字进行研究。我们的研究动机一个方面就是探究仓颉造字的数学原理。

可以看到在您的文章中，像对“朝阳”的朝字进行的字根拆解，就是按照象形文字的方式进行的分解。这样的分解有考虑过用繁体字吗？

柳：这种分解方式我们认为用繁体字应该会更好，简体版我们在使用的时候发现了一些问题，但是training set 更易于获得，最终选用简体，先来看字根分解是否初步奏效。前段时间开会遇到新疆的老师，他们认为可能可以应用在维吾尔语上，因为字根的意思更明确。

从词根跨度到字根进行分析，有哪些优势?

柳：我们在论文中想做的事情并不是为了证明字根比词根更好，而是对于汉语，字根是最小不可分割的语义单位。我们的论文想传达的观点是探索一条分解中文的新途径，这些可以用词根解决的问题，同样可以用字根进行很好的处理，并且一些问题可以处理的更好，很多时候可能两者结合达到更好的效果。Deep learning就是将分析对象在特征表达方面分解成非常细小的单位，依靠数据和模型的能力，让他们自动交互、形成联系，最终解决任务。

您在做字根嵌入时是否主要用五笔字型的分解方式，尤其是对于古体字？

柳：是。这可能不是最优的分解方式。对这几万个字我们并没有找到更合理的方式去分解，但五笔字型分解可以直接从输入法那边拿过来，相对简单。并且五笔中还有字的结构，如左右结构、上下结构、包围结构等。

您的文章中将两种嵌入还有in-house的方法（STC和CWS）以及搜索排名进行试验比较，您为何要选择此三种进行实验比较呢？是否为标准方法？

柳：首先，分词的形式（segmentation）是汉语独有的，英语里面不牵扯分词的事情，所以一定要做测试。我们通过使用上面这些方法，希望可以对汉语特有的特性做一些提升。第二，字根也是表达语义，短文分类（text segmentation）也可以表征这种方法是否有效。第三进行大规模的工业型层面上的应用，来展示这个方法对工业界的一些影响。相比几十年前，学术界和工业界之间的隔阂是越来越小的。我们对每个任务的比较都起到这种在标准的benchmark上面去做测试。

在基于STC的试验里，在金融、体育和娱乐三个领域里对字根嵌入和词的结合比支持向量机和LR有更好的准确度。这个是否说明搜狗会基于不同的语类采用最优化的语义预测呢？比如休闲类话题用词与字根，体育类话题用文字与字根结合的方式？当数据量比较大的时候，会选择性的（如词与字根的结合、文字与字根的结合等）去训练一些特别的语类吗？

柳：我们当时挑选这三个类别是因为数据量比较多，并没有去专门选择这三种类别。因为做深度学习（deep learning），network比较深的话需要基于一定量的数据进行试验，否则就很容易过拟合（overfitting）。至于实际中是否会选择性的去训练特别的语类就不像论文写得这么简单了。实际中要看现在这种方法的准确率是多少，你需要给它提高到多少。有时候会对算法进行改变，有时候会给他增加新的数据，有时候再加上一些新的特征。好比加入新特征的话，字根嵌入就可以作为一个特征（extra features）来把模型做得更好。实际应用会有很多trade off（权衡），如果是做繁体字的语义分析，好比古文献里面，我们的这种预测、猜想应该会是更有意思的。因为很多字变成简体字之后其实看不到字本来的意思了。

在CWS的试验里，PSA和RDE两种方法不分伯仲，字根嵌入法跟PSA相比的优势在哪儿？

柳：优势在于当数据量再大时，我们把模型调的更深一些来利用更大量的数据，PSA相当于已经饱和了。深度学习中，只要你有足够多的计算资源，有足够量的训练集（training set），效果会上涨，相当于提供了一种可扩容式的学习方式。以前的方法相当于一个人只能吃一定量的东西，再来十个馒头就吃不下去了，但深度学习的方式是，再来十个馒头有方法让胃再扩大一倍，这个时候就可以变得更强壮。在Computational complexity（计算复杂性）和learning theory里，一个模型到底能学出多么复杂的function，也就是它的learning capacity（学习能力）。如果是linear function（线性方程）只能学习线性的，但non-linear（非线性）模型可以涵盖的东西比较多，这个相当于覆盖的learning capacity比linear要高。深度学习的Learning capacity非常大，如果模型调的好，数据量匹配，并且function正确，很多是看不到overfitting（过拟合）的。

字根搜索在算法速度上是否有一定优势？

柳：字根是最小的单位元，计算比较慢，模型在去中心的时候同时读写会比较多一些，这是一个速度上的瓶颈。以前单独使用字的时候，相当于每一个字上有一个参数。现在把字拆成字根之后，变成只有200多个字根。以前训练一个来回只需要更新这些出现的字，几万个里面可能有几十个或几百个参数需要改，不会出现同时都需要修改的东西。但在字根层面其实就需要更改这200多个地方，因而很多人需要去改同一个东西，这就导致“写”的累积，所以造成速度上的瓶颈。速度上在做并行式的，分布在不同的机器上，很大程度上减少“写”的冲突，速度上已经有很大的提高。

在搜索排名的试验中，可以看到词嵌入法在一半数据集中就已经趋于饱和了，但字根嵌入可以利用上样本的优势，随着样本量的增加准确度增高，这是否是字根嵌入法在大数据量上的预测优势？

柳：由于我们做更深一层（dive deeper），扩充了learning capacity，这就是为什么现在做deep learning的时候都试图去用最原始的东西，好比图像上面就抛弃了以前的feature selection（特征选择）的方法，而直接用pixel像素层级来做。以前的话有几十个上百个feature就不错了，现在的图片按像素做事很大的，靠神经网络来自组织，learning capacity就会上升很多。

目前的中文语义分析是只基于现代文学的语言习惯，是否涉及古文、方言？特别是不同方言在词、语法使用上会有很大的差异。

柳：主要是做普通话，因为我们考虑的是手写体，文字（text）。在语音处理上很多地方涉及方言，手写上很多方言的汉字不知怎么写，所以我们在处理text时只涉及汉语文字。

字根嵌入法的应用主要是希望提高搜索和广告投放的质量，这个技术应用起来如果增加产品的竞争力？

柳：在搜索上，把排名排对了，更是用户所想要的，为用户创造价值。对于搜索广告的广告商来说，也可以得到更加精准的匹配。这就是字根对客户、对搜索带来的影响。

原文发布时间为：2015-09-09

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文相关推荐

亚马逊首席科学家李沐博士：工作五年反思
五年前的今天我飞往西雅图参加亚马逊的面试.面试完后连夜做红眼航班飞往波士顿赶去参加老婆在MIT的博士答辩.答辩一半的时候电话响了,对方说恭喜你面试通过,想聊下薪水.我说其实就面了你们一家,直接给就是, ...
百度首席科学家吴恩达谈百度人工智能项目进展情况
吴恩达(Andrew Ng)是人工智能领域的大牛之一.他是Google人工智能部门的其中一位创始人,是2012年Google通过自主学习识别猫图像的深度学习神经网络"DistBelief&q ...
哀悼！旷视首席科学家孙剑博士突然离世，终年45岁
Mosaix首席科学家劳逆：弱监督学习是未来发展趋势
Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家.创业者.投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力. 本期Ro ...
捷通华声与清华海峡研究院联合成立人工智能研究中心张钹院士出任首席科学家...
6月2日,由清华海峡研究院主办,捷通华声承办的清华人工智能产业发展论坛(厦门)圆满举办,并成功创建清华海峡研究院人工智能研究中心专委会. 中国人工智能泰斗清华海峡研究院人工智能研究中心首席科学家张钹院 ...
首席科学家办公室成立：人类的极限能否无远弗届？
[此文转自刘志刚互联网江湖] 都说三个臭皮匠顶个诸葛亮,可如果是三个诸葛亮组合成一个team,小宇宙的爆发力又该当何如那?近日卓易科技"首席科学家办公室成立仪式"在上海举办 ...
腾讯首席科学家谈「元宇宙」
摘要张正友博士认为,在PC互联和移动互联之后,我们正迈入全真互联网时代. 作者 | 文夏婧近来,元宇宙成为科技圈和资本圈大热的话题. 不久前,清华大学新媒体研究中心发布了<2020-2021 ...
前百度首席科学家张栋：36岁以前做到这8点再谈梦想
2015年1月31日,"拉勾网年度盛典暨中国互联网年度最佳雇主颁奖礼"在北京剧院召开.本次盛典邀请了京东金融集团首席战略官姚乃胜.e袋洗CEO陆文勇.前百度首席科学家张栋.蘑菇街C ...
裴健当选加拿大皇家学会院士：曾任华为首席科学家、京东副总裁，学术引用超8万次...
思齐发自凹非寺量子位报道 | 公众号 QbitAI 3位华人学术大牛,刚刚加冕加拿大学术最高荣誉. 2019年9月10日,加拿大皇家学会(RSC)公布最新一期入选的院士名单. 其中,裴健.叶 ...
Google首席科学家谈Google是怎么做深度学习的
Google首席科学家谈Google是怎么做深度学习的 dongfeiwww 2016-03-26 10:17 收藏64 评论1 2016年3月7日,谷歌首席科学家,MapReduce.BigTab ...

搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文

搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文相关推荐

最新文章

热门文章