torchtext建立词表build_vocab()时使用自己的word2vec模型
代码如下:
如果对于torchtext本身不太了解,可以参考:torchtext处理文本数据——构造dataset读取文本(学习一):torchtext处理文本数据——构造dataset读取文本(学习一)
from torchtext import dataCOMMENT = data.Field()
fields = [('name', None), ('comment', COMMENT)]train = data.TabularDataset.splits(path='./',train='my_data.csv',format='csv',skip_header=True,fields=fields)
train = train[0]
# =========================上面都是torchtext的模板,下面开始自定义一个word2vec模型=========================
from gensim.models import Word2Vecword2vec_model = Word2Vec([['i', 'am', 'a', 'train', 'sentence', 'one'],['i', 'am', 'a', 'love', 'sentence', 'two'],['i', 'love', 'you'],['you', 'love', 'me'],
], vector_size=256, min_count=1, window=5, sg=0) # 这里训练了一个超级差劲的模型,但是意思就是这个意思
word2vec_model.wv.save_word2vec_format('my_word2vec_format.txt') # 关键步骤,一定要写入到文件中
# =========================训练好后构建全部词表=========================
from torchtext.vocab import Vectorsvectors = Vectors(name='my_word2vec_format.txt') # 关键步骤,一定要从文件中读取到Vectors中
COMMENT.build_vocab(train, vectors=vectors)
love_index = COMMENT.vocab.stoi['love']
print(love_index) # love这个单词的下标
print("love的词向量:", COMMENT.vocab.vectors[love_index])
torchtext建立词表build_vocab()时使用自己的word2vec模型相关推荐
- torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表(学习二)
首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...
- 在idea使用maven工程建立web项目时,启动Tomcat访问不到项目首页。
在idea使用maven工程建立web项目时,启动Tomcat访问不到项目首页,输入URL:http://localhost:8080/时一片空白也不报错 ,按下面步骤检查: 1.看下这几个地方是否配 ...
- 【Bug】Origin平台,建立EA账号时,显示“很抱歉,我们目前发生技术问题,请稍后再试一次”
建立EA账号时出错 问题描述 原因和解决方案 问题描述 错误提示如下 原因和解决方案 一开始以为是网络问题,尝试使用科学上网方式以及游戏加速器加速origin平台方式,发现均无效. 参考一些资料发现, ...
- Origin平台 建立EA账号时 显示“很抱歉,我们目前发生技术问题,请稍后再试一次”
Origin平台 建立EA账号时 显示 " 很抱歉,我們目前發生技術問題.請稍後再試一次." 问题正确解决方法 1.问题 第一次在origin上下游戏,发现这个要注册EA账号,然后 ...
- 数据库建立组合索引时应该遵循的规则, 精确查找先,范围查找后,尽管区分度高
建组合索引的时候,区分度最高的在最左边. 正例:如果 where a=? and b=? ,a 列的几乎接近于唯一值,那么只需要单建 idx_a 索引即 可. 说明:存在非等号和等号混合判断条件时,在 ...
- eclipse里建立servlet文件时,package下面有红色下划线
eclipse里建立servlet文件时,package下面有红色下划线 打开eclipse Java EE时经常有如下错误: package下有红下划线,我修改成功的方法是: 右键点击该.Java文 ...
- python中如何画logistic_如何在 Python 中建立和训练线性和 logistic 回归 ML 模型?
原标题:如何在 Python 中建立和训练线性和 logistic 回归 ML 模型? 英语原文: 翻译:(Key.君思) 线性回归与logistic回归,是. 在我的里,你们已经学习了线性回归机器学 ...
- unity导入FBX模型时出现材质丢失,模型为白膜的情况
unity导入FBX模型时出现材质丢失,模型为白膜的情况 导入模型后点击该模型 修改属性即可:
- 根据《LLT低延迟趋势线与交易性择时 短线择时策略研究》的python模型 策略开发
<低延迟趋势线与交易性择时短线择时策略研究> 传统移动平均线(MA)的缺点 移动平均线(MA)是技术分析中常用的一类趋势跟踪指标,其可以在一定程度上刻画股票价格或指数的变动方向.MA ...
最新文章
- Asp.net(C#)面试100+题陆续添加中……
- java如何获得键值_如何在java中取map中的键值 的两种方法
- git-commit
- EF Core 2.0使用MsSql/Mysql实现DB First和Code First
- 腾讯云与智慧产业总裁汤道生:产业互联网是一场“持久战”
- 检测技术再进化:人物交互检测,基于多层次条件网络的方法(ICMR2020)
- c语言提高,C语言提高-day2
- linux16.04添加用户,Ubuntu16.04下添加新用户
- 关于SAP性能优化的讨论
- 兰州烧饼 NYOJ--779
- 软考高级 真题 2010年下半年 信息系统项目管理师 综合知识
- 2.2.9 12306火车订票验证码处理
- Pintos-斯坦福大学操作系统Project详解-Project1
- 中棉所建议国家扶持棉花产业
- 基于钱搜索算法的BCH译码
- python编程实现人民币和美元的互相转换_【PYTHON】人民币和美元币值转换
- 命令行把java项目打成jar包
- 问:adb连接逍遥模拟器时,报offline。
- 自己整理的财务知识(财务比率)(英文不标准是为了自己建立自定义字段而已)
- 我国地理信息系统产业发展前景