https://www.toutiao.com/a6643219722961682947/

2019-01-06 11:25:24

词向量基本上是一种单词表示形式,它将人类对语言的理解与机器的理解连接起来。词向量是文本在n维空间中的分布式表示。这些是解决大多数NLP问题所必需的。

领域适应是一种技术,它允许机器学习和转移学习模型来映射小生境数据集,这些数据集都是用同一种语言编写的,但在语言上仍然不同。例如,法律文件、客户调查响应和新闻文章都是惟一的数据集,需要进行不同的分析。常见垃圾邮件过滤问题的任务之一是采用从一个用户(源分发版)到一个接收到明显不同的电子邮件的新用户(目标分发版)的模型。

词向量在深度学习领域的重要性,从该领域的研究数量可以明显看出。谷歌在向量领域进行的一项这样的研究导致了一组通常称为Word2Vec的相关算法的开发。

Word2Vec被维基百科描述为:

Word2vec以一个大型文本语料库作为输入,生成一个向量空间,通常有几百个维度,语料库中每个惟一的单词在该空间中分配一个对应的向量。单词向量被放置在向量空间中,这样在语料库中共享公共上下文的单词就会在空间中彼此靠近。

在这篇文章中,我们来看看单词嵌入(Word2Vec)和域适应的一些实际应用。我们还查看了Word2Vec的技术方面,以获得更好的理解。

分析调查结果

Word2Vec可用于从数千个客户的评论中获得可操作的指标。企业没有足够的时间和工具来分析调查结果并据此采取行动。这会导致投资回报率和品牌价值的损失。

在这种情况下,Word向量被证明是无价的。对调查数据集进行训练(或适应于调查数据集)的词的向量表示可以帮助在所审查的答复和作出答复的具体环境之间嵌入复杂的关系。机器学习算法可以利用这些信息为您的业务/产品确定可操作的见解。

逐字分析评论

利用词向量的机器学习在逐字注释分析领域取得了很大的进展。这种分析对于以客户为中心的企业非常重要。

在分析文本数据时,一个重要的用例是逐字分析注释。在这种情况下,数据科学家的任务是创建一种可以挖掘客户评论或评论的算法。

像Word2Vec这样的单词向量对于这种机器学习任务是必不可少的。经过客户评论和评论训练的单词的向量表示可以帮助映射出所分析的不同逐字评论和评论之间的复杂关系。像Word2Vec这样的词向量也有助于弄清楚特定评论的具体上下文。这种算法在理解买方或客户对特定业务或社交论坛的情绪方面非常有价值。

音乐/视频推荐系统

互联网上的流媒体服务彻底改变了我们体验内容的方式。在过去,推荐的重点是为您提供将来使用的内容。而现代的流媒体平台则专注于推荐那些能够而且将会被当下所享受的内容。流媒体模型以个性化广播和推荐播放列表的形式带来了新的发现方法。这里的重点是生成能够凝聚在一起的歌曲序列。为了增强用户体验,推荐系统的模型不仅应该捕捉相似的人通常对哪些歌曲感兴趣,而且还应该捕捉在非常相似的上下文中经常一起听哪些歌曲。

这些模型使用了Word2Vec。该算法将用户的收听队列解释为一个句子,并将每首歌视为句子中的一个单词。当Word2Vec模型在这样一个数据集上训练时,我们的意思是用户过去听过的每首歌和现在听过的每首歌在某种程度上都属于相同的上下文。Word2Vec精确地用一个坐标向量表示每首歌曲,这个坐标向量映射歌曲或视频播放的上下文。

词向量的技术方面

在NLP中,一个常见的实践是为各种下游任务使用预先训练的单词向量表示,也称为嵌入。直观地说,这些单词向量表示单词之间的隐式关系,这些关系在对可以受益于上下文信息的数据进行培训时非常有用。

以Mikolov等人的Word2Vec跳格模型为例——这是训练单词向量的两种最流行的方法之一(另一种是手套)。作者提出了一个类比推理问题,本质上需要问这样一个问题:“德国对柏林就像法国对___?”当你把这些词看成一个矢量时,这个问题的答案就由这个公式给出了

vec("柏林")- vec("德国")= x - vec("法国")

也就是说,向量集合之间的距离必须相等。因此,

x = vec("柏林")- vec("德国")+ vec("法国")

在正确学习向量表示的情况下,所需要的单词由最接近所获得的点的向量给出。另一个含义是具有相似语义和/或语法意义的单词将被组合在一起

改造

虽然通用数据集通常受益于使用这些预先训练的词向量,但表示不一定总是很好地转移到专门的领域。这是因为向量已经在维基百科和类似来源创建的大量文本语料库上进行了训练。

例如,python这个词在日常上下文中还有其他含义,但它在计算机编程上下文中完全有其他含义。当您构建用于分析上下文关键数据(如医学和法律注释)的模型时,这些差异变得更加相关。

一种解决方案是简单地在领域特定的数据集上训练GloVe或skip-gram模型,但是在许多情况下,还没有足够大的数据集来获得实际相关/有意义的表示。

改造的目标是获取现成的预先训练过的单词向量,并使它们适应您的新域数据。与预先训练的向量相比,单词的结果表示更具有上下文感知能力。

NLP中的词向量及其应用相关推荐

  1. NLP中的词向量总结与实战:从one-hot到bert

    写在前面 之前写的关于NLP基础词向量的笔记,这次更新一下.从最简单的one-hot到目前效果惊人的BERT进行整理对比,加深对基础的理解.词向量的表示方法由低级至高级可以分为以下几个部分: Bag ...

  2. nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

    本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert. 目录 一.文本表示和各词向量间的对比  1.文本表示哪些方法? 2.怎么从语言 ...

  3. 神经网络 和 NLP —— 语言模型和词向量

    前段时间一口气读完了 NN4NLP,很是畅快,非常喜欢作者行文讲解的口吻和逻辑.大概两周读完,每页都有收获,读完后反而担心有所疏漏,知识太多留不住,索性从头来一遍,把学习过程的知识点和思考记录下来,也 ...

  4. NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练

    NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 前言:出于种种原因,总是不自觉把 ...

  5. BERT中的词向量指南

    2019-11-19 20:50:57 作者:Chris McCormick 编译:ronghuaiyang 导读 在本文中,我将深入研究谷歌的BERT生成的word embeddings,并向你展示 ...

  6. 【NLP】fastText词向量与文本分类工具

    一.简介 fastText 是 Facebook 于2016年开源的一个词向量训练与文本分类工具,其典型应用场景是"无监督的词向量学习"和"有监督的文本分类". ...

  7. 【NLP】ACL2020 | 词向量性别偏见

    作者 | Salesforce Research  编译 | NewBeeNLP ACL2020关于词嵌入性别偏见的蛮有意思的一项工作: 论文地址:https://arxiv.org/abs/2005 ...

  8. 自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)

    笔者在看各种NLP的论文.文献.博客之中发现在应用过程中,有种类繁多的词向量的表达.笔者举例所看到的词向量有哪些. 词向量一般被看做是文档的特征,不同词向量有不同的用法,本文介绍了四类词向量: Has ...

  9. bert获得词向量_NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

    作者:JayLou,NLP算法工程师 知乎专栏:高能NLP之路 https://zhuanlan.zhihu.com/p/56382372 本文以QA形式对自然语言处理中的词向量进行总结:包含word ...

最新文章

  1. 数据结构源码笔记(C语言):基数排序
  2. 耗时 3 天,上亿数据如何做到秒级查询?
  3. 7-19上午刷题未知点集合
  4. CSS3 Animation制作飘动的浮云和星星效果
  5. 我心中的ASP.NET Core 新核心对象WebHost(二)
  6. java 语义_Java文件合并变得语义化
  7. 【Java】基于栈的算术表达式求值
  8. 合工大计算机在职研究生好考吗,合肥工业大学在职研究生2019年考研必知
  9. 红帽wps linux安装包,rhel6(centos)安装WPS最新版
  10. tensorflow之 feature_column + pre-made estimator组合实战
  11. 最新中国上市公司市值500强(2021年)
  12. Splunk CIM
  13. Android绘制几何图形详解
  14. c语言三位数中有多少素数,输出所以三位数的素数,并求素数的个数,每行输出10个数...
  15. 未来十大最热门职业,可能消失的职业
  16. DotNet 连接 Oracle 10G数据库的测试
  17. 达梦数据库安装(Linux下的命令行方式)_yxy
  18. fatal error LNK1120: 1个无法解析的外部命令
  19. poj 1837 Balance
  20. 联盟广告平台架构及实践

热门文章

  1. 智源首席科学家张平文当选美国工业与应用数学学会会士
  2. 排名看似毫无波澜的,但 R 语言热度仍在上升 | 8月编程语言排行
  3. 分分钟掌握设计基本原则
  4. 堪比Focal Loss!解决目标检测中样本不平衡的无采样方法
  5. Face Recognition for the Happy House-v3
  6. 清华大学首批研究生学术与职业发展能力提升项目评估交流会举行
  7. Rich Caruana:压缩深度神经网络模型让你兼得可解释性与准确性!
  8. 2020 诺贝尔奖「第一棒」:英美三位科学家摘得桂冠!
  9. Facebook AI研究员田渊栋的2021年终总结:多读历史!
  10. 不会编程也能做这么酷炫的视频风格迁移?这个工具冲上Reddit热榜,还能在线试玩...