嵌入式和非嵌入式

数据科学 (Data Science)

Word embeddings.

词嵌入。

What are they? What do they look like? How are they made?…

这些是什么? 他们看起来怎么样? 它们是怎么制成的?…

I’ll break it down without code or lingo.

我将在没有代码或行话的情况下将其分解。

This is based on my experience explaining machine learning terms to non-technical colleagues.

这是基于我向非技术同事解释机器学习术语的经验。

了解:机器学习模型仅了解数字 (Understand: Machine learning models only understand numbers)

You can’t feed text to an ML model.

您无法将文本输入ML模型。

Because, in a nutshell, math doesn’t work on text.

简而言之,因为数学不适用于文本。

Does not work
不起作用

You must convert words/sentences/etc… to a list of numbers first.

您必须先将单词/句子/等转换为数字列表。

But this works
但这有效

Word embeddings are one approach to converting text to a machine-readable format.

单词嵌入是将文本转换为机器可读格式的一种方法。

There are several approaches, including bags of words, but we won’t get into those here.

有几种方法,包括大量的单词 ,但是我们在这里不做介绍。

单词嵌入将单词转换为数字序列 (A word embedding converts words to sequences of numbers)

Below are a few words, “bright”, “shiny” and “dog”, translated into numbers with popular word-embedding library, Word2Vec.

以下是一些流行的词嵌入库Word2Vec将“亮”,“发光”和“狗”这几个词翻译成数字。

Notice “bright” and “shiny” are more similar to each other than “dog”.
请注意,“明亮”和“发光”比“狗”更相似。

When using pre-trained embeddings like Word2Vec, the numeric representation of each word comes included.

当使用像Word2Vec这样的经过预训练的嵌入时,每个单词的数字表示都包括在内。

You simply convert your words into each given sequence of numbers, then plug them into your model.

您只需将单词转换为每个给定的数字序列,然后将其插入模型即可。

词嵌入中的值是什么意思? (What do the values in a word embedding mean?)

In isolation, nothing!

孤立无事!

But relative to each other, they contain a lot of information.

但是相对而言,它们包含很多信息。

In the previous Word2Vec example, we can see that at each index, “bright” and “shiny” are more similar to each other than to “dog”.

在前面的Word2Vec示例中,我们可以看到,在每个索引处,“明亮”和“发光”彼此之间的相似程度要比与“狗”相似。

We call each index a “dimension”
我们称每个索引为“维度”

If we plotted D1 and D2 on a 2x2 grid, we would see “bright” and “shiny” very close to each other, and “dog” further away.

如果在2x2的网格上绘制D1和D2,我们将看到“明亮”和“发亮”彼此非常接近,而“狗”则更远。

In the word-embedding approach, words with a similar meaning “should” have similar numeric values.

在单词嵌入方法中,具有相似含义“应该”的单词具有相似的数值。

为什么相似的单词具有相似的数值? (Why do similar words have similar numeric values?)

Good question.

好问题。

Because a word IS its context.

因为一个词就是它的上下文。

“context” = “the words used around a word” in the training text used to build the word-embedding.

在用于构建词嵌入的训练文本中,“ context” =“围绕单词使用的单词”。

So when deriving numeric values for “beautiful” and “gorgeous” we would likely find similar words around them, and they would get similar numeric values.

因此,当导出“美丽”和“华丽”的数值时,我们可能会在它们周围找到相似的词,并且它们将获得相似的数值。

A word’s numeric values are a function of the weights in a neural network upon correctly guessing a word, given its context (CBOW approach).

给定上下文(CBOW方法),在正确猜出单词后,单词的数值是神经网络中权重的函数。

The neural network keeps adjusting its weights until it can take the context of a word, and guess the word itself.

神经网络会不断调整权重,直到可以获取单词的上下文并猜测单词本身为止。

At that point, the current weights (think knobs and dials on a machine) become the numeric values.

此时,当前的砝码(机器上的旋钮和刻度盘)将变为数值。

Similar context is often found around words with similar meaning.

在具有相似含义的单词周围通常会发现相似的上下文。

So similar neural network weights will predict similar words.

因此,相似的神经网络权重将预测相似的单词。

结论 (Conclusion)

Disclaimer: I’ve made some generalizations and skipped some small steps to help make this more explainability

免责声明:我做了一些概括,并跳过了一些小步骤来帮助提高解释性

That’s it.

而已。

Word embeddings are an approach (one of several) for converting text into numbers so computers can process it.

单词嵌入是一种将文本转换为数字以便计算机可以处理的方法(几种)。

Practical experience (successes and failures) is your best guide as to when you should actually use them, versus other approaches. While very popular, they often underperform more traditional approaches (in my anecdotal experience).

与何时使用其他方法相比,实践经验(成功和失败)是您何时应该真正使用它们的最佳指南。 尽管很受欢迎,但它们通常不如传统方法(根据我的轶事)。

That’s why I always recommend diving in and getting your hands dirty on some code.

这就是为什么我总是建议您深入了解一些代码的原因 。

Remember that in machine learning, there is no free lunch. We really don’t know what works until we try it!

请记住,在机器学习中, 没有免费的午餐 。 在尝试之前,我们真的不知道什么有效!

翻译自: https://towardsdatascience.com/how-i-explained-word-embeddings-to-my-non-technical-colleagues-52ced76cf3bb

嵌入式和非嵌入式

http://www.taodudu.cc/news/show-863516.html

相关文章:

  • ai与虚拟现实_将AI推向现实世界
  • bert 无标记文本 调优_使用BERT准确标记主观问答内容
  • 机器学习线性回归学习心得_机器学习中的线性回归
  • 安全警报 该站点安全证书_深度学习如何通过实时犯罪警报确保您的安全
  • 现代分层、聚集聚类算法_分层聚类:聚集性和分裂性-解释
  • 特斯拉自动驾驶使用的技术_使用自回归预测特斯拉股价
  • 熊猫分发_实用熊猫指南
  • 救命代码_救命! 如何选择功能?
  • 回归模型评估_评估回归模型的方法
  • gan学到的是什么_GAN推动生物学研究
  • 揭秘机器学习
  • 投影仪投影粉色_DecisionTreeRegressor —停止用于将来的投影!
  • 机器学习中的随机过程_机器学习过程
  • ci/cd heroku_在Heroku上部署Dash或Flask Web应用程序。 简易CI / CD。
  • 图像纹理合成_EnhanceNet:通过自动纹理合成实现单图像超分辨率
  • 变压器耦合和电容耦合_超越变压器和抱抱面的分类
  • 梯度下降法_梯度下降
  • 学习机器学习的项目_辅助项目在机器学习中的重要性
  • 计算机视觉知识基础_我见你:计算机视觉基础知识
  • 配对交易方法_COVID下的自适应配对交易,一种强化学习方法
  • 设计数据密集型应用程序_设计数据密集型应用程序书评
  • pca 主成分分析_超越普通PCA:非线性主成分分析
  • 全局变量和局部变量命名规则_变量范围和LEGB规则
  • dask 使用_在Google Cloud上使用Dask进行可扩展的机器学习
  • 计算机视觉课_计算机视觉教程—第4课
  • 用camelot读取表格_如何使用Camelot从PDF提取表格
  • c盘扩展卷功能只能向右扩展_信用风险管理:功能扩展和选择
  • 使用OpenCV,Keras和Tensorflow构建Covid19掩模检测器
  • 使用Python和OpenCV创建自己的“ CamScanner”
  • cnn图像进行预测_CNN方法:使用聚合物图像预测其玻璃化转变温度

嵌入式和非嵌入式_我如何向非技术同事解释词嵌入相关推荐

  1. 词嵌入 网络嵌入_词嵌入简介

    词嵌入 网络嵌入 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Word embedding is a method to ca ...

  2. 专访微软邓力:语音识别与非监督深度学习、增强学习、词嵌入、类脑智能

    在俞栋接受CSDN专访解读基于深度学习的语音识别技术及CNTK开源软件的同时,<解析深度学习-语音识别实践>一书的另一位作者.微软人工智能首席科学家邓力也接受CSDN专访,以另外的视角诠释 ...

  3. 嵌入式linux的软件毕设论文,嵌入式linux远程控制机器人_毕设论文.doc

    嵌入式linux远程控制机器人_毕设论文 嵌入式Linux远程控制机器人 嵌入式Linux远程控制机器人摘要嵌入式系统诞生于微型机时代,经历了漫长的独立发展的单片机道路.究竟嵌入式系统是什么?嵌入式系 ...

  4. 嵌入式与人工智能关系_嵌入式人工智能的发展趋势

    嵌入式与人工智能关系_嵌入式人工智能的发展趋势 所谓嵌入式人工智能,就是设备无须联网通过云端数据中心进行大规模计算去实现人工智能,而是在本地计算,在不联网的情况下就可以做实时的环境感知.人机交互.决策 ...

  5. 嵌入式系统分类及其应用场景_词嵌入及其应用简介

    嵌入式系统分类及其应用场景 Before I give you an introduction on Word Embeddings, take a look at the following exa ...

  6. python和嵌入式那个有前途_嵌入式的发展前景如何?

    首先说下近期我对与嵌入式的认识,从前年开始我一直坚信一个方向,万物互联 = 5G + 物联网,这个物联网也可以理解为嵌入式. ​ ​嵌入式这个概念非常的广,几乎可以包括各行各业,从工作类型最常见的是分 ...

  7. 【嵌入式Linux】嵌入式项目实战之七步从零编写带GUI的应用之显示系统、输入系统、文字系统

    文章目录 前言 1.显示系统 1.1.程序分层 1.2.几个重要的数据结构 1.3.程序分析 2.输入系统 2.1.程序分层 2.2.触摸屏输入 2.2.1.几个重要的数据结构 2.2.1.程序分析 ...

  8. 嵌入式硬件 软件测试,嵌入式系统软硬件功能测试方法及性能评估研究

    随着嵌入式系统硬件体系结构的变化,嵌入式系统的发展趋势向嵌入式系统高端,即嵌入式软件系统转移,具体体现在嵌入式操作系统趋于多样和应用软件日渐复杂.由于嵌入式系统软硬件功能界限模糊,研究如何进行系统测试 ...

  9. 什么是嵌入式设备?/ 嵌入式设备的定义

    什么是嵌入式设备?/ 嵌入式设备的定义 区别于通用计算机的其他设备都可以称之为嵌入式设备 (个人电脑,服务器) 一段时期内,必备的硬件配置. 嵌入式开发包括哪些部分: 底层驱动开发: 关键字:BSP/ ...

最新文章

  1. 搭建python selenium 自动化测试框架_Python3+Selenium2完整的自动化测试框架实现(二):IE和Chrome浏览器驱动配置...
  2. 开发购物车应用程序(1)
  3. Tomcat7.0源码分析——Session管理分析(下)
  4. 【算法】快速排序/数组第K小的元素
  5. 服务器启动时的leader选举
  6. 正则表达式元字符整理
  7. SAP ABAP 编程语言里允许哪些特殊字符作为变量名的一部分?
  8. 2.12 主成分分析(下)
  9. 火车进出栈问题(高精度+压位+质因数分解消除除法)
  10. 深度学习:自然语言生成-集束/柱搜索beam search和随机搜索random search
  11. Python英语单词查询
  12. 修复windows系统快捷方式图标变成白色的问题
  13. python 画竖线_学习笔记92—python 画横竖分界线
  14. 纯css动画效果--animate的应用
  15. ERP系统的操作方法是什么?
  16. 笔记本电脑没有声音:HDMI外接显示器连接后电脑无声
  17. python计算方位角_python实现两个经纬度点之间的距离和方位角
  18. Android自定义日历控件(附效果图)
  19. 今日知识资源干货分享
  20. JavaWeb进阶之路:MyBatis-配置解析

热门文章

  1. java mybatis XML文件中大于号小于号转义(转载)
  2. 24. [Ext JS 4] 实战之Load Mask(加载遮罩)的显示与隐藏
  3. Facebook的bigpipe
  4. smartfoxserver扩展里面过滤聊天的不合法字符
  5. Sublime text使用快捷键
  6. JS基础篇--函数声明与定义,作用域,函数声明与表达式的区别
  7. Android 开发中使用Intent传递数据的方法
  8. 关于websocket
  9. ASP注入详细命令40条
  10. python中hashset_python中的集合