目录

  • Word2Vec基本数学内容
  • 语言模型
  • Hierarchical Softmax 模型
  • Negative Sampling 模型

一、Word2Vec基本数学内容

1. Sigmod 函数

&absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内,对应样本所属的类的概率。函数表达式如下所示:

f(x)=11+e−x

f(x) = \frac{1}{1+e^{-x}}
具体的讨论可以参见:
http://blog.csdn.net/chunyun0716/article/details/51580342

2. 贝叶斯公式

P(A|B)=P(B|A)P(A)P(B)

P(A|B) = \frac{P(B|A)P(A)}{P(B)}
可以参见贝叶斯分类等一系列文章:
1. http://blog.csdn.net/chunyun0716/article/details/51031055
2. http://blog.csdn.net/chunyun0716/article/details/51058948
3. http://blog.csdn.net/chunyun0716/article/details/51111864

3. Huffman 树和Huffman编码

下边这篇博客写的很详细了,这里简单引用一些基本知识:
http://blog.csdn.net/shuangde800/article/details/7341289

定义哈夫曼树之前先说明几个与哈夫曼树有关的概念:
路径: 树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。
路径长度:路径上的分枝数目称作路径长度。
树的路径长度:从树根到每一个结点的路径长度之和。
结点的带权路径长度:在一棵树中,如果其结点上附带有一个权值,通常把该结点的路径长度与该结点上的权值 之积称为该结点的带权路径长度(weighted path length)
树的带权路径长度:如果树中每个叶子上都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带
权路径长度。

一般来说,用n(n>0)个带权值的叶子来构造二叉树,限定二叉树中除了这n个叶子外只能出现度为2的结点。
那么符合这样条件的二叉树往往可构造出许多颗,其中带权路径长度最小的二叉树就称为哈夫曼树或最优二叉树.

通过哈夫曼树来构造的编码称为哈弗曼编码(huffman code)

Word2Vec学习笔记(一)相关推荐

  1. Python实现Word2vec学习笔记

    Python实现Word2vec学习笔记 参考: 中文word2vec的python实现 python初步实现word2vec 中英文维基百科语料上的Word2Vec实验 GitHub代码地址 1 文 ...

  2. 【机器学习】word2vec学习笔记(三):word2vec源码注释

    1. word2vec地址 官网地址:https://code.google.com/archive/p/word2vec/ GitHub地址:https://github.com/tmikolov/ ...

  3. 【机器学习】word2vec学习笔记(一):word2vec源码解析

    0. word2vec地址 官网地址:https://code.google.com/archive/p/word2vec/ GitHub地址:https://github.com/tmikolov/ ...

  4. Word2vec学习笔记总结

    git地址: https://github.com/duankai/latex_book/tree/master/word2vec

  5. Word2Vec学习笔记(四)——Negative Sampling 模型

    前面讲了Hierarchical softmax 模型,现在来说说Negative Sampling 模型的CBOW和Skip-gram的原理.它相对于Hierarchical softmax 模型来 ...

  6. Word2Vec学习笔记(三)续

    三.(续)Skip-gram模型介绍 Skip-gram模型并不是和CBOW模型相反的,它们的目的都是计算出词的向量,只不过在作者的论文中给出的图看样子是反的而已.Skip-gram模型是用每个当前词 ...

  7. python 下的 word2vec 学习笔记

    1.ubuntu下安装gensim refer to: ubuntu 14.04 安装gensim 为了保证安装成功,首先升级一下easy_install工具. sudo easy_install - ...

  8. word2vec学习笔记2

    1.前车之鉴 鉴于前面word2vec在大数据集上由于分词器.数字等噪音的干扰,使得训练出来的word2vec的结果不是很好.因此本节换用IKAnalyzer分词工具,另外调整word2vec的参数来 ...

  9. Word2Vec学习笔记(五)——Negative Sampling 模型(续)

    本来这部分内容不多,是想写在negative sampling 中和cbow一起的,但是写了后不小心按了删除键,浏览器直接回退,找不到了,所以重新写新的,以免出现上述情况 (接上) 三.Negativ ...

最新文章

  1. PHP Extension Makefile 製作
  2. 如何找出nginx配置文件的所在位置?
  3. hdu (欧拉函数+容斥原理) GCD
  4. php抑制错误,PHP 行内错误抑制
  5. mysql 取数据 展示_php mysql_fetch_row逐行获取结果集数据并显示在table表格中
  6. 对于.swp文件的恢复方法
  7. 动态通过网络获取json来tabbar图片和文字或其他信息
  8. php二进制加密_怎样给PHP源代码加密?PHP二进制加密与解密的解决办法
  9. varchar和Nvarchar区别
  10. jenkins插件之Publish Over SSH
  11. NDK-JNI实战教程(一) 在Android Studio运行第一个NDK程序
  12. B站韩顺平java学习笔记(九)-- 面向对象编程(高级)章节
  13. 学校图书馆借阅管理系统软件项目分析
  14. python发送短信接口_Python发短信接口
  15. 【论文笔记】Enhancing Adversarial Example Transferability with an Intermediate Level Attack
  16. oracle减法函数mius_Oracle 基础知识习题175道
  17. vue+swiper4+js实现滑动的筋斗云效果
  18. 在基于ZYNQ MPSOC XCZU3CG自定义单板上运行DPU例程
  19. 视频号品牌私域运营的困境与应对策略
  20. 2022-08-04 乐理知识(三) 如何打拍子——V字打拍法,三角形打拍法,常见节奏型:二八,四十六,前十六后八,前八后十六,前后附点,大附点,大小切分,八三拍的节奏型及其变体

热门文章

  1. swift面向对象之多态与继承
  2. 孕妇能长期在计算机屏幕前工作吗,怀孕了在电脑前工作怎么办
  3. C语言程序设计与有限元,C语言与有限元程序设计.pdf
  4. 三折线弹塑性滞回模型matlab,动力弹塑性滞回模型-迈达斯汇总.doc
  5. css 动态生成圆形区域内扇形个数_CSS实用技巧总结
  6. python-week6
  7. 重磅福利 | 全网唯一,多年踩坑经验,探索测试策略新奇方法之案例剖析(一)...
  8. 高效精准分析定位系统BUG,让你无所不能
  9. 如何选择国外虚拟主机空间服务商
  10. Factors of Factorial AtCoder - 2286 (N的阶乘的因子个数)(数论)