自然语言处理:基于预训练模型的方法

  • 1.2 自然语言处理的难点
  • 1.3 自然语言处理任务体系

1.2 自然语言处理的难点

1.2.1 抽象性
语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂
概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属
性,有轮子、能载人或物等。
1.2.2 组合性
每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB
2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单
词,英文和中文也不过各几十万个。然而,这些有限的符号却可以组合成无限的语
义,即使是相同的词汇,由于顺序不同,组合的语义也是不相同的,因此无法使用穷
举的方法实现对自然语言的理解。
1.2.3 歧义性
歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的,如:
“苹果”一词,既可以指水果,也可以指一家公司或手机、电脑等电子设备,这就是
典型的一词多义现象。另外,对于两个句子,如“曹雪芹写了红楼梦”和“红楼梦的
作者是曹雪芹”,虽然它们的形式不同,但是语义是相同的。
1.2.4 进化性
任何一种“活着”的语言都是在不断发展变化的,即语言具有明显的进化性,也
称创造性。这主要体现在两方面:一方面是新词汇层出不穷,如“超女”“非典”
“新冠”等;另一方面则体现在旧词汇被赋予新的含义,如“腐败”“杯具”等。除
了词汇,语言的语法等也在不断变化,新的用法层出不穷。
1.2.5 非规范性
1.2.6 主观性
1.2.7 知识型
1.2.8 难移植性

1.3 自然语言处理任务体系

1.3.1 任务层级
应用系统:教育,医疗,司法,金融,机器人
应用任务:
信息抽取,情感分析,问答系统,机器翻译
基础任务:分词,词性标注,句法分析和句意分析
资源建设:语言学知识库建设和语料库资源建设

1.3.2 任务类别
回归问题,分类问题,匹配问题(判断两个输入文本之间的关系,文本相似性),解析问题(分词,命名实体识别也可转化为解析问题),生成问题(机器翻译,文本摘要,图像描述)

1.3.3 研究对象与层次
形式:名
语义:名+实
推理:名+实+知
语用:名+实+知+境

自然语言处理:基于预训练模型的方法(一)相关推荐

  1. 《自然语言处理:基于预训练模型的方法》读书笔记:第2章 自然语言处理基础

    目录 第2章 自然语言处理基础 2.1 文本的表示 2.1.1 词的独热表示 2.1.2 词的分布式表示 2.1.3 词嵌入表示 2.1.4 文本的词袋表示 2.2 自然语言处理任务 2.2.1 语言 ...

  2. 《自然语言处理:基于预训练模型的方法》第七章 预训练语言模型

    预训练模型并不是自然语言处理领域的"首创"技术. 在计算机视觉领域,通常会使用ImageNet进行一次预训练,让模型从海量图像中充分学习如何从图像中提取特征.然后,会根据具体的任务 ...

  3. 【自然语言处理(NLP)】基于预训练模型的机器阅读理解

    [自然语言处理(NLP)]基于预训练模型的机器阅读理解 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专 ...

  4. 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型

    Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型 目录 Pre-trained Models f ...

  5. 基于预训练模型 ERNIE 实现语义匹配

    基于预训练模型 ERNIE 实现语义匹配 本案例介绍 NLP 最基本的任务类型之一 -- 文本语义匹配,并且基于 PaddleNLP 使用百度开源的预训练模型 ERNIE1.0 为基础训练效果优异的语 ...

  6. 基于预训练模型的军事领域命名实体识别研究

    摘要 [目的]为了解决开源非结构化军事领域数据的命名实体识别问题.[方法]本文提出基于预训练模型(Bidirectional Encoder Representations from Transfor ...

  7. NeurIPS 2020 | MiniLM:通用预训练模型压缩方法

    基本信息 机构: 微软研究院 作者: Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou 论文地址: https://arx ...

  8. CV之NS之VGG16:基于预训练模型VGG16训练COCO的train2014数据集实现训练《神奈川冲浪里》风格配置yml文件

    CV之NS之VGG16:基于预训练模型VGG16训练COCO的train2014数据集实现训练<神奈川冲浪里>风格配置yml文件 目录 一.训练 1.<神奈川冲浪里>风格 2. ...

  9. Perturbed Masking:和参数无关的预训练模型分析方法

    ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|问答系统 论文标题: Perturbed Masking: Parameter-free Probing for Ana ...

最新文章

  1. 在 Linux 上如何安装 SoundConverter及转换音频
  2. 多媒体制作技术心得体会_多媒体课件制作学习心得体会
  3. CTO关注:升级Win 10,除了更安全还有什么
  4. Maven学习(一)——Maven入门
  5. poj1797Heavy Transportation最大生成树
  6. iCMS v8.0.0多终端内容管理系统
  7. 也谈PostgreSQL的Vacuum机制及其最佳实践
  8. Toastr.js插件用法
  9. MySQL-事务的实现-redo
  10. CIT 中文笔记完整版
  11. 用java语言编写的操作系统属于_为什么操作系统不是用java编写的?
  12. php动态增加div,JavaScript动态创建div等元素实例
  13. weUI多页面切换效果
  14. Pyspark:随机森林
  15. 如何让计算机恢复显示电量,win10系统右下角电池图标不见了看不到剩余电量的还原步骤...
  16. 黑莓android系统,黑莓Passport的手机系统是什么?能升级安卓5.0吗?
  17. 20170105资金净流入排行榜
  18. Laravel 阿里大鱼短信接口
  19. golang实现多协程下载文件(支持断点续传)
  20. 如何写一份漂亮的测试用例?

热门文章

  1. 手机刷机 安卓刷机,刷机
  2. 2021到啦!“锦鲤揭晓”,送您一份专属的新年祝福...
  3. Cadence OrCAD 中元件标号出现下划线如何解决?
  4. ROS中pcd文件提取
  5. React中使用全局IP配置
  6. 『无法安装应用程序,因为XXXXXXXX的证书无效』解决方法。
  7. 腾讯云开发CloudBase之静态网站托管
  8. spm oracle cloud,Expérience client
  9. 微博红包/爬虫/支付/核心代码
  10. YoloV5+ROS2直接发布出物品坐标