代码如下:

如果对于torchtext本身不太了解,可以参考:torchtext处理文本数据——构造dataset读取文本(学习一):torchtext处理文本数据——构造dataset读取文本(学习一)

from torchtext import dataCOMMENT = data.Field()
fields = [('name', None), ('comment', COMMENT)]train = data.TabularDataset.splits(path='./',train='my_data.csv',format='csv',skip_header=True,fields=fields)
train = train[0]
# =========================上面都是torchtext的模板,下面开始自定义一个word2vec模型=========================
from gensim.models import Word2Vecword2vec_model = Word2Vec([['i', 'am', 'a', 'train', 'sentence', 'one'],['i', 'am', 'a', 'love', 'sentence', 'two'],['i', 'love', 'you'],['you', 'love', 'me'],
], vector_size=256, min_count=1, window=5, sg=0)  # 这里训练了一个超级差劲的模型,但是意思就是这个意思
word2vec_model.wv.save_word2vec_format('my_word2vec_format.txt')  # 关键步骤,一定要写入到文件中
# =========================训练好后构建全部词表=========================
from torchtext.vocab import Vectorsvectors = Vectors(name='my_word2vec_format.txt')  # 关键步骤,一定要从文件中读取到Vectors中
COMMENT.build_vocab(train, vectors=vectors)
love_index = COMMENT.vocab.stoi['love']
print(love_index)  # love这个单词的下标
print("love的词向量:", COMMENT.vocab.vectors[love_index])

torchtext建立词表build_vocab()时使用自己的word2vec模型相关推荐

  1. torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表(学习二)

    首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...

  2. 在idea使用maven工程建立web项目时,启动Tomcat访问不到项目首页。

    在idea使用maven工程建立web项目时,启动Tomcat访问不到项目首页,输入URL:http://localhost:8080/时一片空白也不报错 ,按下面步骤检查: 1.看下这几个地方是否配 ...

  3. 【Bug】Origin平台,建立EA账号时,显示“很抱歉,我们目前发生技术问题,请稍后再试一次”

    建立EA账号时出错 问题描述 原因和解决方案 问题描述 错误提示如下 原因和解决方案 一开始以为是网络问题,尝试使用科学上网方式以及游戏加速器加速origin平台方式,发现均无效. 参考一些资料发现, ...

  4. Origin平台 建立EA账号时 显示“很抱歉,我们目前发生技术问题,请稍后再试一次”

    Origin平台 建立EA账号时 显示 " 很抱歉,我們目前發生技術問題.請稍後再試一次." 问题正确解决方法 1.问题 第一次在origin上下游戏,发现这个要注册EA账号,然后 ...

  5. 数据库建立组合索引时应该遵循的规则, 精确查找先,范围查找后,尽管区分度高

    建组合索引的时候,区分度最高的在最左边. 正例:如果 where a=? and b=? ,a 列的几乎接近于唯一值,那么只需要单建 idx_a 索引即 可. 说明:存在非等号和等号混合判断条件时,在 ...

  6. eclipse里建立servlet文件时,package下面有红色下划线

    eclipse里建立servlet文件时,package下面有红色下划线 打开eclipse Java EE时经常有如下错误: package下有红下划线,我修改成功的方法是: 右键点击该.Java文 ...

  7. python中如何画logistic_如何在 Python 中建立和训练线性和 logistic 回归 ML 模型?

    原标题:如何在 Python 中建立和训练线性和 logistic 回归 ML 模型? 英语原文: 翻译:(Key.君思) 线性回归与logistic回归,是. 在我的里,你们已经学习了线性回归机器学 ...

  8. unity导入FBX模型时出现材质丢失,模型为白膜的情况

    unity导入FBX模型时出现材质丢失,模型为白膜的情况 导入模型后点击该模型 修改属性即可:

  9. 根据《LLT低延迟趋势线与交易性择时 短线择时策略研究》的python模型 策略开发

    <低延迟趋势线与交易性择时短线择时策略研究>  传统移动平均线(MA)的缺点 移动平均线(MA)是技术分析中常用的一类趋势跟踪指标,其可以在一定程度上刻画股票价格或指数的变动方向.MA ...

最新文章

  1. Asp.net(C#)面试100+题陆续添加中……
  2. java如何获得键值_如何在java中取map中的键值 的两种方法
  3. git-commit
  4. EF Core 2.0使用MsSql/Mysql实现DB First和Code First
  5. 腾讯云与智慧产业总裁汤道生:产业互联网是一场“持久战”
  6. 检测技术再进化:人物交互检测,基于多层次条件网络的方法(ICMR2020)
  7. c语言提高,C语言提高-day2
  8. linux16.04添加用户,Ubuntu16.04下添加新用户
  9. 关于SAP性能优化的讨论
  10. 兰州烧饼 NYOJ--779
  11. 软考高级 真题 2010年下半年 信息系统项目管理师 综合知识
  12. 2.2.9 12306火车订票验证码处理
  13. Pintos-斯坦福大学操作系统Project详解-Project1
  14. 中棉所建议国家扶持棉花产业
  15. 基于钱搜索算法的BCH译码
  16. python编程实现人民币和美元的互相转换_【PYTHON】人民币和美元币值转换
  17. 命令行把java项目打成jar包
  18. 问:adb连接逍遥模拟器时,报offline。
  19. 自己整理的财务知识(财务比率)(英文不标准是为了自己建立自定义字段而已)
  20. 我国地理信息系统产业发展前景

热门文章

  1. centos 安装idea 非可视化_CENTOS 7 安装教程
  2. python 运行时 变量_python运行过程,变量,符号
  3. EPIC《禅意花园》项目开放下载
  4. Markdown: Basics (快速入门)
  5. iOS开发经验总结—内存管理
  6. GPU Raycasting的两种实现方法
  7. 201771010101白玛次仁《面向对象程序设计(java)》第十二周实验总结
  8. C# 中执行 msi 安装
  9. HAProxy反向代理搭建discuz论坛
  10. django安装与简介