原文:自然语言理解难在哪儿? - 知乎

1. 本质和关键

自然语言理解任务的本质是结构预测,关键则是对语言单元的语义表示能力。

1.1 自然语言理解本质是结构预测

自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成。要实现对自然语言的表意的理解,需要建立对该无结构文本背后的语义结构的预测。因此,自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等,都是在对文本序列背后特定语义结构进行预测。例如,中文分词就是在原本没有空格分隔的句子中增加空格或其他标识,将句子中每个词的边界标记出来,相当于添加了某些结构化语义信息到这个文本序列上。

1.2 自然语言理解的关键是语义表示

要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。

特征工程:构建特征的过程,就是构建语义结构表示空间。只有这个空间的语义表示能力足够好、足够接近人类理解程度,模型才有可能将人类通过语言要表达的意义进行完美表示和解读。

  • 在统计学习时代,一般采用符号表示(Symbol-based Representation)方案,即每个词都看做互相独立的符号。例如,词袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中词的出现顺序信息,广泛用于文本分类、信息检索等任务。N-Gram也是基于符号表示的语言模型,与BOW模型相比,将句子中词的出现顺序考虑了进来,曾在机器翻译、文本生成、信息检索等任务中广泛使用。

缺点:符号表示过于粗略,忽略了对词语内部语义或词序信息的考量,无法考虑语言符号背后反映的丰富语义信息;也受到数据稀疏问题的影响

  • 到深度学习时代,一般采用分布式表示(Distributed Representation或Embeddings)方案,每个语言单元(包括但不限于字、词、短语、句子、文档)都用一个低维稠密向量来表示它们的语义信息。分布式表示是深度学习和神经网络的关键技术。分布式表示方案是受到了人脑神经机制的启发。

缺点:分布式表示虽然具有更强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,只能建立满足特定需求的语义表示,一方面缺少可解释性,鲁棒性差,另一方面通用性和迁移性不足。这些与人脑展现的语义表示能力相比,还有千里之遥。

2. 自然语言的特点

  • 创新性
  • 递归性
  • 多义性
  • 主观性
  • 社会性

3. 自然语言理解难在哪

  • 结构语义表示空间构建

让计算机理解人类语言,需要建构结构化的语义表示空间,只有这个空间的语义表示能力能够与人类心智相媲美,才有可能将人类通过语言要表达的意义进行完美表示和解读。同时,这个语义表示空间还要接受客观世界的校正,消除人类认知中存在的偏见和缺陷,让人工智能更好地服务人类社会。

现在的语义表示方案中,符号表示过于粗略,无法考虑语言符号背后反映的丰富语义信息;而分布式表示虽然具有更强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,只能建立满足特定需求的语义表示,一方面缺少可解释性,鲁棒性差,另一方面通用性和迁移性不足。这些与人脑展现的语义表示能力相比,还有千里之遥。

未来,需要探索更强大的结构化语义表示空间。例如,是否可以将分布式表示与符号表示相结合,既保留分布式表示的泛化能力,又兼顾模块化和层次化符号表示带来的抽象能力。也许这是下一轮自然语言理解取得革命进展的突破口之一。

  • 多模态复杂语境的理解

人类并非孤立地使用语言,语言使用需要考虑其复杂的语境。以语言的多义性为例,存在多义的语言单元,总需要其外部的复杂语境信息进行消歧:字的多义性至少需要所组成的词来消歧;词的歧义性至少需要所在的句子来消歧;句子的意思至少要放在语篇或对话语境中,甚至需要复杂的世界知识来帮助理解。

自然语言理解难在哪儿?相关推荐

  1. 清华大学-刘知远:自然语言理解难在哪儿?

    点击上方"AI遇见机器学习",选择"星标"公众号 原创干货,第一时间送达 作者:刘知远 来源:知乎 NLP日知录 https://zhuanlan.zhihu. ...

  2. 【讲座】清华刘知远:自然语言理解难在哪儿?

    文章作者:刘知远 (原载于知乎:NLP日知录)课件来自于学堂在线直播: 在微博和知乎上关注自然语言处理(NLP)技术的朋友,应该都对#NLP太难了#.#自然语言理解太难了#两个话题标签不陌生,其下汇集 ...

  3. 时至今日,NLP怎么还这么难!

    作者 | 刘知远 在微博和知乎上关注自然语言处理(NLP)技术的朋友,应该都对#NLP太难了#.#自然语言理解太难了#两个话题标签不陌生,其下汇集了各种不仅难煞计算机.甚至让人也发懵的费解句子或歧义引 ...

  4. 原创推荐!B站最强学习资源汇总(数据科学,机器学习,Python)

    经过这几个月的居家隔离,想必大多数同学都开始习惯通过线上的方式开展学习了,在线教育领域也因此迎来了一波爆发,竞争异常激烈,既有知名平台如MOOC.学堂在线.网易云课堂等,也有不少初创新星.但要说最受年 ...

  5. 原创 | 吐血推荐,B站最强学习资源汇总(数据科学,机器学习,python)

    经过这几个月的居家隔离,想必大多数同学都开始习惯通过线上的方式开展学习了,在线教育领域也因此迎来了一波爆发,竞争异常激烈,既有知名平台如MOOC.学堂在线.网易云课堂等,也有不少初创新星.但要说最受年 ...

  6. 这个NLP工具,玩得根本停不下来

    今天推荐一个有趣的自然语言处理公众号AINLP,关注后玩得根本停不下来!AINLP的维护者是我爱自然语言处理(52nlp)博主,他之前在腾讯从事NLP相关的研发工作,目前在一家创业公司带技术团队.AI ...

  7. 这个自然语言处理“工具”,玩得停不下来

    今天推荐一个有趣的自然语言处理公众号「AINLP」,关注后玩得根本停不下来!AINLP的维护者是我爱自然语言处理(52nlp)博主,他之前在腾讯从事NLP相关的研发工作,目前在一家创业公司带技术团队. ...

  8. 【机器学习】隐马尔可夫模型

    点击上方蓝色字体,关注AI小白入门哟 跟着博主的脚步,每天进步一点点 本文介绍了隐马尔可夫模型,首先介绍了隐马尔科夫模型定义,核心思想是引入了隐状态序列(引入隐状态是所有隐因子模型最巧妙的地方,如:隐 ...

  9. 【机器学习】孤立森林

    点击上方蓝色字体,关注AI小白入门哟 跟着博主的脚步,每天进步一点点 本文介绍了一种基于树集成的异常检测方法,其核心思想是"异常点是容易被孤立的离群点".首先介绍了孤立森林算法的设 ...

最新文章

  1. matlab用辛普森公式求积分_如何用Excel公式求最大值对应的行列序号
  2. 数据结构 线性存储 -- 栈 讲解
  3. 张睿:OpenH264拥有产品级的鲁棒性 欢迎contribute
  4. 介绍计算机硬件的英语作文带翻译,介绍我家的英语作文(带翻译)
  5. Robbers' watch CodeForces - 685A (暴力)
  6. [html] 使用svg画一个爱心
  7. 《剑指offer》第二十三题(链表中环的入口结点)
  8. MySQL数据库Binlog解析工具--binlog2sql
  9. sha256算法细节详解
  10. 开发“小米商城官网首页”(静态页面)
  11. itunes备份是整个手机备份吗_如何使用iTunes备份手机资料
  12. scrapy框架—spiders
  13. gprs模块与服务器通信协议,gprs模块与服务器通信原理分析
  14. Cluster status reports MDSs behind on trimming
  15. PFC的使用与探索(一)
  16. Python爬取链家网上的房源信息
  17. 成都学编程哪个学校好
  18. java单根结构_java“单根继承结构”
  19. (17)-- 网页的foot制作
  20. 微信小程序商城搭建二手交易网站购物+后台管理系统|前后分离VUE.js

热门文章

  1. flowable设置流程发起人
  2. Statement和PraparedStatement区别
  3. Python 海龟画图(turtle)常用的颜色单词
  4. swagger导出excel文档_将Swagger2文档导出为HTML或markdown等格式离线阅读
  5. 数据中心的“芯”竞争
  6. 机房配电系统与配电电缆线径的选择及巡查
  7. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译
  8. 成功解决Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问
  9. DayDayUp:那些年-程序猿的爱情故事
  10. TF:利用是Softmax回归+GD算法实现MNIST手写数字图片识别(10000张图片测试得到的准确率为92%)