下面两节课我将为大家介绍,如何基于 Deeplearning4j 的框架来实现词和句子的分布式/向量化建模。目前 Deeplearning4j 支持对词建模的 word2vec、GloVe,对文档建模的 doc2vec/paragraph2vec,以及对图结构进行建模的 DeepWalk 算法。在具体介绍这些建模工具之前,我们首先回顾下对文本建模的一些手段。本节课核心内容包括:

  • 文本建模的词袋和词嵌入模型
  • word2vec 的原理与建模
  • GloVe 的原理与建模

11.1 文本建模的词袋和词嵌入模型

文本由很多的段落和很多的句子构成,同时,每个句子又由若干个词构成。因此在早期对文本建模时,很容易想到将一段文本表示成词的集合,也就是我们在 NLP 问题经常讲到的词袋模型(Bag of Words)。具体落地的时候,我们用一个很长的向量来表示这个词袋。向量中的每个索引位置即代表文本当中的词。那么每个位置的具体值可以看情况而定,我们可以直接用 0/1 来表示该词是否出现,也可以用 TF-IDF 的值来填充。

词袋模型是经典的文本特征表示方法。直到现在,基于词袋模型对长文本进行特征表示依然会取得非常好的效果。它的表示方法简单、直接、易于理解。但它的缺点其实也是很突出的,就是向量的维度很高,且容易忽略上下文的信息(可以基于一些如 N-Gram 的语言模型进行补充调整,但会加重高维的问题)。当然对于这些问题我们有些手段可以处理,例如对于高维灾难的问题可以借助于 PCA/SVD 进行降维,或者基于统计的一些方法进行特征抽取,这些在这里就不展开讨论了。

词的分布式表达/词嵌入是从另外一个角度来表示词或者文本,即对于每个词都用一个稠密向量来表示。这

第11课:词句分布式表达——词建模工具相关推荐

  1. 用计算机播放vcd教案,川教版信息技术七下第11课《CD与VCD播放》word教案1.docx

    信息技术学科教学设计方案模板 课题名称 四川省义务教育信息技术教材七年级下册第11课CD与 VCD播放 教师姓名 刘社春 学生年级七年级 课时 1 教学内容分析 认识CD播放器和媒体播放机,掌握 CD ...

  2. 用计算机播放vcd教案,川教版信息技术七下第11课《CD与VCD播放》教案.doc

    川教版信息技术七下第11课<CD与VCD播放>教案整理 第十一课CD与VCD的播放一.教学目标 1.知识与技能目标 (1)了解CD.VCD和DVD的区别学习播放CDVCD的操作: (2)音 ...

  3. PyTorch 1.7发布,支持CUDA 11、Windows分布式训练

    机器之心报道 参与:魔王.小舟 昨日,PyTorch 团队发布 PyTorch 1.7 版本.该版本增添了很多新特性,如支持 CUDA 11.Windows 分布式训练.增加了支持快速傅里叶变换(FF ...

  4. 太棒了!PyTorch 1.7发布,支持CUDA 11、Windows分布式训练

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  5. 调试断点_接口测试第11课(断点调试)

    同学们,大家好,今天我们开始学习11课了,这节我们讲断点调试. 一. 使用Fiddler进行HTTP断点调试. 这是Fiddler又一强大和实用的工具之一.通过设置断点,Fiddler可以做到: 1. ...

  6. 《实用C++》第11课:if 语句实现逻辑运算与冒号表达式

    本文转载自:VC驿站 https://www.cctry.com/thread-279233-1-1.html 1.逻辑运算概述: 为什么会有逻辑运算呢?举个例子,上节课的一段小代码: int zha ...

  7. ArchieOpenGL教程第11课:使用位图字体 在屏幕上显示字体

    第十一课A 源代码 图像字体A: 这一课我们将创建一些基于2D图像的字体,它们可以缩放,但不能旋转,并且总是面向前方,但作为基本的显示来说,我想已经够了. 使用位图字体比起使用图形字体(贴图)看起来不 ...

  8. 「缠师课后回复精选」第11课:不会吻,无以高潮!

    教你炒股票11:不会吻,无以高潮! 2006-11-29 12:00:00 本课精读详解参阅:「狩猎精读缠论」第11课 不会吻,无以高潮! 甄别"早泄"男,必须要选择三个独立的系统 ...

  9. 第11课 Altium Designer20(AD20)+VESC6.4实战教程:绘制原理图8(北冥有鱼)

    第11课 Altium Designer20(AD20)+VESC6.4实战教程:绘制原理图8(北冥有鱼)

  10. 国考省考行测:词句理解,词的对象指代,就近原则,主语一致法,语意语境分析上下文找出指代含义

    国考省考行测:词句理解,词的对象指代,就近原则,主语一致法,语意语境分析上下文找出指代含义 2022找工作是学历.能力和运气的超强结合体! 公务员特招重点就是专业技能,附带行测和申论,而常规国考省考最 ...

最新文章

  1. 零基础搭建个性化精准营销 AI 应用,这次手把手教你!
  2. 向量笛卡尔积_如何创建向量的矢量的笛卡尔积?
  3. Scala学习笔记(7)-函数式对象
  4. Linux C Socket编程发送结构体、文件详解及实例
  5. psycopg2.errors.UndefinedTable: relation “xxxx“ does not exist
  6. pythonweb开发工作内容_我的第一个python web开发框架(5)——开发前准备工作(了解编码前需要知道的一些常识)...
  7. Docker学习篇(一)Docker概述、安装和常用命令
  8. 如何用C语言编辑窗口界面,「分享」C语言如何编写图形界面
  9. 通过对极几何求解相机运动
  10. 机器学习面试-其他重要算法
  11. STLINK下载程序(附STLINK驱动包)
  12. exls表格搜索快捷键_excel表格快捷键大全_如何在EXCEL表格中快速查找
  13. 【翻译】CRAFT:Character Region Awareness for Text Detection
  14. tomcat 控制台中文乱码问题解决办法寻觅
  15. jinkens搭建及部署项目
  16. 南电转债上市价格预测
  17. 从阵容再到内容,跨年晚会们重寻“流量密码”
  18. 物联网时代来袭,智能快递柜到底方便了谁?
  19. L1-5 试试手气(c++、数组)
  20. vscode卡在Setting up SSH Host XX:Copying VS Code Server to host with scp

热门文章

  1. 米3从android6降回4,从5G到4G,三个月的思考后我从小米9 pro降级到了小米9T pro
  2. 图像超分辨率:优化最近邻插值Super-Resolution by Predicting Offsets
  3. GPU视频压缩1—Flexible CTU-level parallel motion estimation by CPU and GPU pipeline for HEVC
  4. 浅谈网游服务器的承载
  5. 取消管理员取得所有权_win10如何获得管理员所有权?
  6. 负载均衡篇(二)实现Web负载均衡的几种方式
  7. 计算机的键盘有什么意思啊,键盘是什么意思 不是电脑的键盘
  8. Heidisql中如何解决MySqlServer go away问题
  9. html视频设置自动播放下一个,在html5中,如何使用video标签让两个不同的视频文件按顺序自动播放?...
  10. Java实现 蓝桥杯 算法提高 三进制数位和