https://aistudio.baidu.com/aistudio/projectdetail/2335535

一、词向量

one-hot表示

把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。例如：苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系，且特征空间非常大。

分布式表示

word embedding指的是将词转化成一种分布式表示，又称词向量。分布式表示将词表示成一个定长的连续的

分布式表示优点:

(1)词之间存在相似关系：是词之间存在“距离”概念，这对很多自然语言处理的任务非常有帮助。

(2)包含更多信息：词向量能够包含更多信息，并且每一维都有特定的含义。在采用one-hot特征时，可以对特征向量进行删减，词向量则不能

1. word2vec

在自然语言处理领域，使用上下文描述一个词语的语义是一个常见且有效的做法。2013年，Mikolov提出的经典word2vec算法就是通过上下文来学习语义信息。word2vec包含两个经典模型：CBOW（Continuous Bag-of-Words）和Skip-gram
CBOW：通过上下文的词向量推理中心词。
Skip-gram：根据中心词推理上下文。

2. 预训练词向量

word2vec之后，涌现了更多word embedding方式，如Glove、fasttext、ElMo等。如今，已有很多预训练完成的词向量，可直接调用使用，用来初始化，可提升简单网络的收敛速度、精度。

自然语言应用：

智能问答
智能对话
机器同传

自然语言处理挑战

多样性
歧义性

技术发展

TokenEmbedding
TokenEmbedding()参数

embedding_name
将模型名称以参数形式传入TokenEmbedding，加载对应的模型。默认为w2v.baidu_encyclopedia.target.word-word.dim300的词向量。
unknown_token 未知token的表示，默认为[UNK]。 unknown_token_vector
未知token的向量表示，默认生成和embedding维数一致，数值均值为0的正态分布向量。
extended_vocab_path 扩展词汇列表文件路径，词表格式为一行一个词。如引入扩展词汇列表，trainable=True。
trainable Embedding层是否可被训练。True表示Embedding可以更新参数，False为不可更新。默认为True。

百度课程——基于深度学习的自然语言处理相关推荐

基于深度学习的自然语言处理
基于深度学习的自然语言处理作者:约阿夫·戈尔德贝格(Yoav Goldberg) 出版社: 机械工业出版社 ISBN:9787111593737 出版时间:2018-05-01
【NLP】一文了解基于深度学习的自然语言处理研究
目前,人工智能领域中最热的研究方向当属深度学习.深度学习的迅速发展受到了学术界和工业界的广泛关注,由于其拥有优秀的特征选择和提取能力,对包括机器翻译.目标识别.图像分割等在内的诸多任务中产生了越来越重 ...
NLP入门之综述阅读-基于深度学习的自然语言处理研究综述
NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述摘要 0 引言 1 深度学习概述卷积神经网络递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...
刘群：基于深度学习的自然语言处理，边界在哪里？
来源:AI科技评论本文约8000字,建议阅读15分钟. 刘群教授与你探讨深度学习方法解决了自然语言处理的哪些问题以及尚未解决哪些问题. 当前,深度学习之于自然语言处理,有其局限性.那么它所能起作用的 ...
《基于深度学习的自然语言处理》中/英PDF
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx <基于深度学习的自然语言处理> Neural Network Methods in ...
【PaddleNLP 基于深度学习的自然语言处理】第三次作业--必修｜快递单信息识别
基本情况 1.数据 train_ds, test_ds = paddlenlp.datasets.load_dataset("msra_ner", splits=["tr ...
基于深度学习的自然语言处理第六章
文本特征构造在前一章中,我们讨论了通用的学习问题,并且看到了一些适用于训练这些问题的机器学习模型和算法.这些模型都将x视为输入向量,之后进行预测.迄今为止,我们假设向量x是已知的.在语言处理中,向量 ...
python抠图算法百度_基于深度学习的一键AI抠图项目：PyMatting
抠图是 PS 中的一项常用技术.但是要做到完美地将图像中的目标选取出来往往费时费力.近日,一个名为 PyMatting 的项目无疑能够帮助你. 项目地址:https://github.com/pyma ...
【项目实战全解】基于深度学习与自然语言处理的AI文本生成（自动写作）
文章目录一.项目演示: 1:诗歌创作 2:律诗与绝句 3:小说篇 4:自己的经济新闻篇二.原理解读 Gpt-2简述何为语言模型与 BERT 的区别三.代码详解与训练教程训练数据半精度模型 ...
基于大数据与深度学习的自然语言对话
基于大数据与深度学习的自然语言对话发表于2015-12-04 09:44| 7989次阅读| 来源<程序员>电子刊| 5 条评论| 作者李航.吕正东.尚利峰大数据深度学习自然语言处理自 ...

百度课程——基于深度学习的自然语言处理