重要参考

https://github.com/liuhuanyong/ChineseEmbedding

原文作者提供了字向量、拼音向量、词向量、词性向量与依存关系向量,共5种类型的向量训练,

在此,只取其字符向量训练部分,加以修改后,做一记录。

完整代码

train_vector.py

在此,设置字向量维度为100。

#!/usr/bin/env python3
# coding: utf-8
# File: train.py.py
# Author: lhy<lhy_in_blcu@126.com,https://huangyong.github.io>
# Date: 18-10-26import os
import gensim
from gensim.models import word2vec
from sklearn.decomposition import PCA
import numpy as npimport logging
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s', level=logging.INFO)class TrainVector:def __init__(self):cur = '/'.join(os.path.abspath(__file__).split('/')[:-1])# 训练语料所在目录self.token_filepath = os.path.join(cur, 'F:\浏览器下载\ChineseEmbedding-master\yuliao.txt')# 向量文件所在目录self.token_embedding = os.path.join(cur, 'F:\浏览器下载\ChineseEmbedding-master\\token_vec_300.bin')#向量大小设置self.token_size = 100'''基于gensimx训练字符向量,拼音向量,词性向量'''def train_vector(self, train_path, embedding_path, embedding_size):sentences = word2vec.Text8Corpus(train_path)  # 加载分词语料model = word2vec.Word2Vec(sentences, size=embedding_size, window=5, min_count=0)  # 训练skip-gram模型,默认window=5model.wv.save_word2vec_format(embedding_path, binary=False)'''训练主函数'''def train_main(self):#训练汉字字向量self.train_vector(self.token_filepath, self.token_embedding, self.token_size)if __name__ == '__main__':handler = TrainVector()handler.train_main()

得到的字向量文件如下:

使用很少的字语料训练→得到100维字向量

test_vector.py

测试效果(主观测试,无精确指标)

#!/usr/bin/env python3
# coding: utf-8
# File: test_vector.py
# Author: lhy<lhy_in_blcu@126.com,https://huangyong.github.io>
# Date: 18-11-1import os
import gensim
from gensim.models import word2vec
from sklearn.decomposition import PCA
import numpy as np
import logging
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s', level=logging.INFO)class TrainVector:def __init__(self):cur = '/'.join(os.path.abspath(__file__).split('/')[:-1])self.token_embedding = os.path.join(cur, 'F:\浏览器下载\ChineseEmbedding-master\\token_vec_300.bin')'''对训练好的模型进行测试'''def test_model(self, embedding_path):model = gensim.models.KeyedVectors.load_word2vec_format(embedding_path, binary=False)while (1):wd = input('enter an word to search:')result = model.most_similar(wd)for res in result:print(res)returnif __name__ == '__main__':handler = TrainVector()handler.test_model('F:\浏览器下载\ChineseEmbedding-master\\token_vec_300.bin')

【NLP_向量表示】使用Word2Vec训练字向量相关推荐

  1. Python Word2vec训练医学短文本字/词向量实例实现,Word2vec训练字向量,Word2vec训练词向量,Word2vec训练保存与加载模型,Word2vec基础知识

    一.Word2vec概念 (1)Word2vec,是一群用来产生词向量的相关模型.这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本.网络以词表现,并且需猜测相邻位置的输入词,在word2 ...

  2. 利用word2vec训练词向量

    利用word2vec训练词向量 这里的代码是在pycharm上运行的,文件列表如下: 一.数据预处理 我选用的数据集是新闻数据集一共有五千条新闻数据,一共有四个维度 数据集:https://pan.b ...

  3. 自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

    自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧 NLP中进行词义消歧的一个非常方便且简单的方法就是训练词向量,通过词向量计算余弦值,来推断某个词在句子中的含义.python中的 ...

  4. 使用jieba对新闻标题进行切词,然后使用word2vec训练词向量及相似词计算的一个小例子

    这个主要是我想记下来方便以后用的时候好直接copy 这个例子就是跑流程的,里面的参数都是随便设的,效果不怎么好,但是流程总得跑通吧. 首先是停用词表见 https://blog.csdn.net/qq ...

  5. word2vec训练词向量 python_使用Gensim word2vector训练词向量

    注意事项 Skip-Gram models:输入为单个词,输出目标为多个上下文单词: CBOW models:输入为多个上下文单词,输出目标为一个单词: 选择的训练word2vec的语料要和要使用词向 ...

  6. Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型

    1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...

  7. 使用word2vec训练词向量

    安装gensim:pip install gensim 准备预料:word2vec中需要sens是经过预处理且用空格进行分词的 训练模型 w2v_model = gensim.models.Word2 ...

  8. Python深度学习-NLP实战:字向量的训练与生成

    系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...

  9. 基于Doc2vec训练句子向量

    目录 一.Doc2vec原理 二.代码实现 三.总结 一.Doc2vec原理 前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的.那接着可能 ...

最新文章

  1. 放弃安卓原生TimePicker,选择wheelView打造更漂亮的时间get,以及动态拉伸输入框布局,这些,这里都有!...
  2. html复制文件到目录,复制指定目录下的全部文件到另一个目录中
  3. mysql 取 浮点运算_mysql 浮点型运算误差原因分析及解决方法
  4. java登录界面命令_Java命令行界面(第3部分):jbock
  5. Python之list对应元素求和
  6. wamp+多版本mysql_WampServer下安装多个版本的PHP、mysql、apache图文教程,_PHP教程
  7. 1010.gtest测试环境搭建
  8. 阿里字体小图标的使用
  9. 怎么录制音频,什么录音软件好用?
  10. ClientToScreen ScreenToClient GetWindowRect GetClientRect
  11. 面试记录-蚂蚁金服-算法工程师(共四面)通过
  12. 1960-2018年世界各国GDP排名变化--Python动图实现
  13. linux多拨脚本,openwrt-mwan3负载均衡,多线多拨
  14. 玩客云刷linuxARMBIAN当服务器过程记录
  15. SD从零开始38-40
  16. # 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(上篇)
  17. 基于PC与单片机串口通信的温度监控系统程序设计
  18. 今日睡眠质量记录75
  19. 2021-2027全球与中国人体解剖学模型市场现状及未来发展趋势
  20. 杜克大学计算机数据科学,杜克大学数据科学硕士专业

热门文章

  1. 圆周率 π 小数点后的前10000位
  2. 易语言制作大漠模块API进程结束
  3. pl sql developer 使用技巧、快捷键 .
  4. java arraylist去重_java ArrayList去重
  5. sounds音标软件Android,Pubg Sounds
  6. 解决“excel复制到txt行数增多问题”
  7. 地震勘探原理(一)之地震波的基本概念
  8. css第十二课:盒子模型
  9. w3schools网站的HTML教程之HTML基础
  10. WaaS与LaaS并举,增强国人底气与自信