点击上方,选择星标置顶,每天给你送干货

阅读大概需要4分钟

跟随小博主,每天进步一丢丢

来自:NLP太难了 公众号

深度学习下,中文分词是否还有必要?

原文:

Is Word Segmentation Necessary for Deep Learning of Chinese

知乎讨论:

https://zhuanlan.zhihu.com/p/65865071

https://www.zhihu.com/question/324672243/answer/715928859

Abstract

作者基于word级模型(word-based model,需要分词)和char级模型(char-based model,不需要分词),在四个NLP任务上做对比实验(语言模型、机器翻译、句子匹配和文本分类)。

实验结果显示,基于char级模型效果总是比word级模型效果好,作者基于这些实验结果给出了一些原因。

Experiments

作者在基于中文语料的四个NLP任务(语言模型、机器翻译、句子匹配和文本分类)上进行了对比实验,比较word级模型char级模型在这四个任务上的效果。

1. 语言模型(Language Modeling)

实验结果:

2. 机器翻译(Machine Translation)

实验结果:

3. 句子匹配/释义(Sentence Matching/Paraphrase  )

4. 文本分类(Text Classification)

word级模型存在的缺陷

作者基于以上实验,探讨了word级模型可能存在导致效果下降的原因。

1. 数据稀疏(Data Sparsity)

word级模型中,很多词出现的频率很低,导致产生了数据稀疏。而对于模型来说,要学习一个词的语义信息,需要词的数量需要达到一定量才行。因此,在word级模型中,神经网络并没有充分学习到很多单词的语义信息。

2. OOV词(Out-of-Vocabulary Words)

我们把不存在于词汇表中的词称为Out-of-Vocabulary Words,即OOV词。通常使用UNK这个记号来表示这些词。也可以对OOV词设置一个词频门限(frequency threshold),这样出现次数低于该门槛的词就称为OOV词。对于OOV词来说,因都将其归类为了UNK,我们就拿一个word embedding来表示UNK这一类后面的所有词,模型就比较困难去学习到它的语义信息。虽然我们可以设置一个比较低的门限,但是这样会导致数据集中出现很多词频低的词,产生数据稀疏问题。

作者也使用了实验证明了这个问题。即,将训练集、验证集和测试集中的所有OOV词都剔除。实验结果显示,随着剔除的OOV词数量越多,word级模型的效果就越好,而char级模型的效果越差。因此,作者的结论是:word级模型受OOV问题困扰,而char级模型不受该问题所困扰。在word级模型中,可以通过减少数据集中的OOV词数量来解决该问题。

3. 过拟合(Overfitting)

数据稀疏问题中的讨论,我们可以得知word级模型会有更多的参数需要被学习到,因此更容易导致产生过拟合。作者使用了dropout技术来解决这个问题。但是,实验证明dropout技术不足以解决word级模型的过拟合问题。

Conclusion

在作者所做的四组实验来看,char级模型效果几乎均好于word级模型。作者将原因归结于word级模型的三点:1.数据稀疏;2.OOV词的存在;3.过拟合。

但作者的初心并不是下一个定性的结论,而是希望大家对这个问题能有更多的探讨,毕竟,我们之前在做NLP任务时,第一步就是无脑地直接分词,确实很少考虑其合理性。


方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读:

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


让更多的人知道你“在看”

深度学习下,中文分词是否还有必要?——ACL 2019论文阅读笔记相关推荐

  1. 基于深度学习模型的电力变压器故障声音诊断方法研究-论文阅读笔记

    基于深度学习模型的电力变压器故障声音诊断方法研究 论文来源 DOI:10.16311/j.audioe.2020.01.020 论文目的 在变压器不停止工作的情况下,基于变压器的三种状态:正常.老化和 ...

  2. 深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用

    前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼"手快有,手慢无".不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为 ...

  3. 2021-06-21基于深度学习的智能机械故障诊断的部分域适应方法阅读笔记

    文章目录 基于深度学习的智能机械故障诊断的部分域适应方法 一.提出的方法 二.网络优化 1.源域监督损失 2.实验比较 总结 基于深度学习的智能机械故障诊断的部分域适应方法 无监督的目标域训练数据不会 ...

  4. 业务需求近期准备深度学习下SpringCloud为加深印象提高学习效果故做此笔记以备后面复习查看之用

    一句话形容:SpringCloud微服务架构集大成者,云计算最佳业务实践.看着官方介绍目前来说SpringCloud应当是微服务领域的南波湾了 学习循序渐进,持之以恒,不是朝夕可至的事情!加油

  5. 关于深度学习应用于场景合成/自动布局的相关的论文阅读【211227更新】

    如标题,总结归纳一些关于场景合成/自动布局的相关论文(当前主要整理在平面上进行的做法,后期再进行扩展) 由于课题组内只剩下我在做相关任务,很多时候没有人讨论,如果有大佬也做这方面工作.或者也看过这些文 ...

  6. ACL 2021 | 基于全局字符关联机制联邦学习的中文分词

    作者 | 陈桂敏 来源 | QTrade AI研究中心 QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型.信息抽取.对话机器人.内容推荐等.本文介绍的是一篇收录于 ...

  7. Jieba分词的准确率提升:使用paddle模式进行分词(使用百度飞桨深度学习模型进行分词)

    1 Paddle模式简介 jieba中的paddle模式是指使用飞桨(PaddlePaddle)深度学习框架加速分词的一种模式.相对于传统的分词算法,paddle模式采用了深度学习模型,可以获得更高的 ...

  8. 深度学习与中文短文本分析总结与梳理

    感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流.它们在许多计算机视觉任务 ...

  9. 【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

    作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文 摘要 实验数据:来源于网络公开的新闻文本数据:用随机欠采样和过采样的方法解决分类不均衡问题:使用BIO格式的标签识别5类命名实体,标注11 ...

  10. 结合语言知识和深度学习的中文文本情感分析方法

    结合语言知识和深度学习的中文文本情感分析方法 徐康庭, 宋威 北方工业大学信息学院 摘要:在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值:而基于深度学习的方法由于 ...

最新文章

  1. linux下remove函数
  2. Python学习之变量、对象和引用
  3. backbone源码之factory
  4. SAP Hybris Commerce启用customer coupon的前提条件
  5. 有关域索引错误产生的原因及解决办法
  6. const 一级指针的启示
  7. Spring官网改版后下载
  8. 求n个连续自然数之和为一个非负整数的数组
  9. MySQL数据库 - 复杂查询(二)第二关
  10. 前端展示图片404后使用onerror替换图片或其他变化
  11. 希望我这是最后一次谈SaaS
  12. ie浏览器怎么打开html,win10ie浏览器不能打开html设置怎么办
  13. 基于Java毕业设计新冠疫苗接种预约系统登录源码+系统+mysql+lw文档+部署软件
  14. 基于NFS共享存储实现kvm虚拟主机动态迁移
  15. 黑马程序员——收集起来的ios笔试题——黑马 ios 技术博客
  16. Java实现模糊查询
  17. 格兰杰因果检验-基础概念
  18. 存照片、视频内存不够?是时候用欢太会员的云空间服务了
  19. 小程序发布之后无法生成海报问题
  20. 小波基函数的选择和小波构造

热门文章

  1. 有关于腾讯地图服务端IP定位接口的获取当前城市的处理
  2. JAVA环境变量安装
  3. oracle 回收站
  4. CMS 系统之 iframe 结构
  5. 虚拟机备份克隆导致SQL SERVER 出现IO错误案例
  6. 关于WEB标准的理解
  7. JAVA – 虚函数、抽象函数、抽象类、接口_对比C++
  8. SQL使用技巧(转)
  9. BUAA软工第0次作业
  10. mysql中show status介绍一