百度课程——基于深度学习的自然语言处理
https://aistudio.baidu.com/aistudio/projectdetail/2335535
一、词向量
one-hot表示
把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。 例如:苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系,且特征空间非常大。
分布式表示
word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的
分布式表示优点:
(1)词之间存在相似关系:是词之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。
(2)包含更多信息:词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能
1. word2vec
在自然语言处理领域,使用上下文描述一个词语的语义是一个常见且有效的做法。2013年,Mikolov提出的经典word2vec算法就是通过上下文来学习语义信息。word2vec包含两个经典模型:CBOW(Continuous Bag-of-Words)和Skip-gram
CBOW:通过上下文的词向量推理中心词。
Skip-gram:根据中心词推理上下文。
2. 预训练词向量
word2vec之后,涌现了更多word embedding方式,如Glove、fasttext、ElMo等。如今,已有很多预训练完成的词向量,可直接调用使用,用来初始化,可提升简单网络的收敛速度、精度。
自然语言应用:
智能问答
智能对话
机器同传
自然语言处理挑战
多样性
歧义性
技术发展
TokenEmbedding
TokenEmbedding()参数
- embedding_name
将模型名称以参数形式传入TokenEmbedding,加载对应的模型。默认为w2v.baidu_encyclopedia.target.word-word.dim300的词向量。 - unknown_token 未知token的表示,默认为[UNK]。 unknown_token_vector
未知token的向量表示,默认生成和embedding维数一致,数值均值为0的正态分布向量。 - extended_vocab_path 扩展词汇列表文件路径,词表格式为一行一个词。如引入扩展词汇列表,trainable=True。
- trainable Embedding层是否可被训练。True表示Embedding可以更新参数,False为不可更新。默认为True。
百度课程——基于深度学习的自然语言处理相关推荐
- 基于深度学习的自然语言处理
基于深度学习的自然语言处理 作者:约阿夫·戈尔德贝格(Yoav Goldberg) 出版社: 机械工业出版社 ISBN:9787111593737 出版时间:2018-05-01
- 【NLP】一文了解基于深度学习的自然语言处理研究
目前,人工智能领域中最热的研究方向当属深度学习.深度学习的迅速发展受到了学术界和工业界的广泛关注,由于其拥有优秀的特征选择和提取能力,对包括机器翻译.目标识别.图像分割等在内的诸多任务中产生了越来越重 ...
- NLP入门之综述阅读-基于深度学习的自然语言处理研究综述
NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...
- 刘群:基于深度学习的自然语言处理,边界在哪里?
来源:AI科技评论 本文约8000字,建议阅读15分钟. 刘群教授与你探讨深度学习方法解决了自然语言处理的哪些问题以及尚未解决哪些问题. 当前,深度学习之于自然语言处理,有其局限性.那么它所能起作用的 ...
- 《基于深度学习的自然语言处理》中/英PDF
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx <基于深度学习的自然语言处理> Neural Network Methods in ...
- 【PaddleNLP 基于深度学习的自然语言处理】第三次作业--必修|快递单信息识别
基本情况 1.数据 train_ds, test_ds = paddlenlp.datasets.load_dataset("msra_ner", splits=["tr ...
- 基于深度学习的自然语言处理 第六章
文本特征构造 在前一章中,我们讨论了通用的学习问题,并且看到了一些适用于训练这些问题的机器学习模型和算法.这些模型都将x视为输入向量,之后进行预测.迄今为止,我们假设向量x是已知的.在语言处理中,向量 ...
- python抠图算法 百度_基于深度学习的一键AI抠图项目:PyMatting
抠图是 PS 中的一项常用技术.但是要做到完美地将图像中的目标选取出来往往费时费力.近日,一个名为 PyMatting 的项目无疑能够帮助你. 项目地址:https://github.com/pyma ...
- 【项目实战全解】基于深度学习与自然语言处理的AI文本生成(自动写作)
文章目录 一.项目演示: 1:诗歌创作 2:律诗与绝句 3:小说篇 4:自己的经济新闻篇 二.原理解读 Gpt-2简述 何为语言模型 与 BERT 的区别 三.代码详解与训练教程 训练数据 半精度模型 ...
- 基于大数据与深度学习的自然语言对话
基于大数据与深度学习的自然语言对话 发表于2015-12-04 09:44| 7989次阅读| 来源<程序员>电子刊| 5 条评论| 作者李航.吕正东.尚利峰 大数据深度学习自然语言处理自 ...
最新文章
- java泰坦宙斯之战程序_泰坦 - 宙斯之战 相关知识点: 1. 使用随机类 2. 类的成员变量 3. 类的成员方法 4. 带参构造器_电商题库2017(学测)答案_学小易找答案...
- Windows中添加自己的程序到开机启动中(添加服务,添加注册表)
- lucene api
- kibana客户端工具操作ElasticSearch(增删改查二)
- sqoop将mysql数据导入到hive指定的数据库中
- python界面编程pdf_Python Qt GUI快速编程——PyQt编程指南 中文pdf完整版[99MB]
- ceisum 加载geojson,webgl 加载geojson数据没有贴地
- linux下调整交换分区的大小
- 各种常用STL容器选择 需求分析笔记
- keytool-JDK导入证书
- Windows10磁盘分区和扩展
- ai-tb.cn 这里面的数据就该都是淘宝的,现在去哪抓取?
- 学习笔记(十)在网页中添加矢量图形
- 费马引理、罗尔定理、拉格朗日中值定理
- cad2016服务器为空,修改CAD2016的服务器地址
- 在linux下安装配置Initiator
- LSH 近似最近邻查找
- 【word】空白页空白行删除不了,按delete
- java sop_JAVA开发环境搭建SOP.doc
- 【什么是长尾关键词(Long Tail Keyword)】
热门文章
- 《大话》之 三大工厂
- ASP.NET 数据绑定常用代码及其性能分析
- memcached学习笔记(1)——memcached原理
- 支持WI-FI的blackberry
- Altium Designer(五):布板技巧
- Windows Moible, Wince 使用.NET Compact Framework进行蓝牙(Bluetooth)开发 之 32feet.NET
- java day10【接口、多态】
- 谈一谈chrome浏览器使用
- Struts(一)struts2.2概述与MVC模式深度剖析
- Linux下进行源码安装时如何避免找不到那些使用--prefix指定目录安装的依赖