什么是one-hot?
2024-05-14 06:05:24
转载自知乎https://www.jianshu.com/p/9948c5764302
作者:Crush_sun
one-hot是最为简单也是比较常用的文本特征表示方法。在词语特征表示上,其本质直接将词语在词语集合中的下标作为该词的表示。
例如存在词语集合:
【i,you,see,world]
,则这几个单词的one-hot表示为:
i: [1, 0, 0, 0]
you: [0, 1, 0, 0]
see: [0, 0, 1, 0]
world: [0, 0, 0, 1]
one-hot表示有两个很明显的缺点:
1、矩阵稀疏和维度灾难。one-hot表示是将词语所在下标位置置为1,其他位置置为0,而现实生活中,词语的集合是很大的,达到几千甚至几万,而每个向量的维度是和词语集合中词语的数量是一致的,所以一个词需要用几千甚至几万的维度来表示,如此大的维度在后续计算中需要很大的计算资源。此外,一个向量中只有一个维度是非零的,明显是过于稀疏的。
2、语义缺失。在我们的表达中,词语之间是有一定的相似性的,例如“i”和“you”、“apple”和“banana”之间的相似性是比较高的,而“i”和“apple”之间的相似性比比较低的。而词向量作为词语的数字特征表示,理应需要保持词语之间语义上的相似性。但是,one-hot所得出来的每个词语的向量与其他词语的向量都是正交的,即每个词语之间的余弦相似度均为0,每对词语之间的欧式距离也是相同的。所以,这种向量表示失去了词语之间的相似性。
最新文章
- 让android的TextView可以滚动
- jspider java运行_Web Spider 网络蜘蛛爬虫
- 第一次投稿怎么选杂志?
- linux z是什么文件夹,Linux znew初学者命令实例教程
- Minimum Window Substring 最小覆盖子串算法
- C#开发笔记之12-如何用C#统计子字符串出现的次数?
- CentOS6.5安装tomcat7
- 轻松了解模型评价指标
- .NET中获取电脑名、IP地址及用户名方法
- js怎么实现ftp上传文件到服务器,js ftp上传文件到服务器
- lpop 原子_全国中考化学易错知识点——微粒构成的物质分子原子离子
- SolidWorks迈迪轴生成器使用注意事项
- 硬盘模式IDE和AHCI
- a0图框标题栏尺寸_机械制图标准中规定的标题栏尺寸
- 【C++】1079:计算分数加减表达式的值(信息学奥赛)
- Excel:合并两个单元格内容
- layaair的TS版本报错问题
- 超级计算机作文230字,我想养小兔子二年级作文230字
- Warning: Accessing non-existent property ‘cat‘ of module exports inside circular dependency
- deepin下安装mysql_deepin系统安装mysql
热门文章
- 【原神】手机版原神下错版本不能登录怎么办?B服修改为官服
- Dockerfile 的 CMD 与 ENTRYPOINT 傻傻分不清楚
- Android自动化测试
- [SWPUCTF 2021 新生赛]caidao
- kdj指标主要看哪个值_kdj指标K · D ·J 分别表示什么
- 华为cmr一al09升级鸿蒙,华为平板 M5 10.8英寸 全网通(CMR-AL09)一键刷机教程,看教程秒懂刷机...
- VCS中VPD的使用简单教程
- 故障:安装OFFICE2007时,刚开始安装,就提示“windows installer 服务不能更新一个或多个受保护的windows文件”,然后安装回滚,最后退出安装。
- Unity 物体沿着某个轴在一定范围内来回旋转
- 大话通信和计算机网络,《大话通信》读后感 - 通信人读书 - 通信人家园 - Powered by C114...