gensim 的word2vec api参见:
https://radimrehurek.com/gensim/models/word2vec.html
本文说一下中文语料的使用,很简单。

1 word2vec api

看下api:

 gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001,  sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0,  trim_rule=None, sorted_vocab=1, batch_words=10000)
  1. 其中的sentences是句子列表,而每个句子又是词语的列表,即list[list]类型。 切记!!
  2. size是embedding纬度,即每个词的向量纬度
  3. window是窗口大小
  4. min_count用来做筛选,去除总的词频小于该值的词语
  5. 其他参数见上面的链接

2 中文语料的csv文件

采用的是csv格式的中文语料:

chnl,nid,doc
体育,18711252,大卫 李髌骨 韧带 撕裂 等待 MRI 篮球 521日 NBA 记者 MichaelC.Wright RamonaShelburne 联合 报道 消息 人士 透露 马刺 大卫 诊断 膝盖 韧带 撕裂 当地 时间 周日 接受 核磁共振 检查 确认 伤势 马刺 今天 主场 勇士 系列赛 比分 落后 李本场 比赛 进攻 落地 不幸 膝盖 提前 退出 比赛 今年 季后赛 李场 出战 4.1分 篮板 来源 Twitter
体育,18711231,尤文 双冠 剑指 欧冠 决赛 皇马 北京 时间 521日 尤文图斯 主场 血虐克 罗托 提前 夺得 意甲 冠军 史无前例 蝉联 意甲 518日 意大利杯 实现 杯赛 三连冠 目前 尤文 赛季 展现 强大 实力 目标 13年 拜仁 赛季 剑指 尤文 上一场 联赛 比赛 罗马 尤文 意大利杯 决赛 前景 担忧 斑马军团 完美 打消 拥趸 疑虑 顺利 夺得 赛季 冠军 头衔 尤文 处于 皮亚尼奇 赫迪拉 中场 主力 无法 出场 情况 完成 卫冕 赛季 尤文 想起 拜仁慕尼黑 当时 拥有 强大 罗贝里 组合 穆勒 拉姆 施魏 施泰格 进攻 防守 两端 强硬 会师 欧冠 决赛 罗本 一锤定音 拜仁 球迷 夜晚 流下 热泪 布冯 能够 年龄 耳朵杯 职业 生涯 集齐 世界杯
体育,18711230,花式 吐饼 看看 尼日利亚 老乡 北京 时间 521日 中超 继续 展开 较量 长春 亚泰 坐镇 经开 体育场 迎来 天津 泰达 挑战 。本场 比赛 陷入 保级 泥潭 试图 上半场 主场 作战 亚泰 发难 胡斯蒂 主罚 前场 任意球 亚泰 中卫 孙捷 力压 防守 球员 头槌 破门 主队 纪录 下半场 惠家康 精彩 边路 突破 助攻 德耶 闪电 扳平 比分 双方 起跑线 比赛 双方 制造 破门 机会 亚泰 获得 点球 良机 皮球 直接 送入 对方 门将 怀中 未能 破门 战罢 双方 握手言和 相比 平和 比分 双方 外援 浪费 进球 机会 唏嘘不已 亚泰 队长
......

chnl, nid, doc分别是频道,新闻id,文本

3 实现

# -*- coding: utf-8 -*-import pandas as pd
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentencedf = pd.read_csv('体育.csv')
sentences = df['doc']
line_sent = []
for s in sentences:line_sent.append(s.split())  #句子组成listmodel = Word2Vec(line_sent, size=300, window=5min_count=1, workers=2)
model.save('./word2vec.model')
for i in model.vocab.keys(): #vocab是dictprint type(i)print i
#model = Word2Vec.load('word2vec_model')
print model.wv['球员']

如果语料文件不是csv,而直接是训练的txt文件,可以使用LineSentence直接把文件读成正确的格式

#model = Word2Vec(LineSentence('体育.txt'), size=300, window=5min_count=1, workers=2)

4 注意编码

训练用的编码格式要与使用model时的编码格式一致。
例如,如果文件是utf-8的文件,读取时没有转成unicode,则model使用时也要使用utf-8格式,例如model.wv[‘球队’]; 训练是用unicode,则使用model.wv[u’球队’]

gensim 中文语料训练 word2vec相关推荐

  1. wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

    首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

  2. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

  3. (一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库

    利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体. 目录 第一步 下载语料库 第二步 将下载好的bz2文件转换为 ...

  4. 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

    前言   本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...

  5. wiki中文语料的word2vec模型构建

    一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

  6. 维基百科简体中文语料训练word2vec词向量

    步骤: 1.下载维基百科中文语料 2.使用工具从压缩包中抽取正文文本 3.将繁体字转简体字 4.分词 5.训练模型 6.测试模型 1.下载维基百科中文语料 语料下载地址:https://dumps.w ...

  7. 基于深度学习的Wiki中文语料词word2vec向量模型

    资源下载地址:https://download.csdn.net/download/sheziqiong/85820613 资源下载地址:https://download.csdn.net/downl ...

  8. 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建

    本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...

  9. gensim流式训练word2vec模型,不需要一次性加载完整数据集

    首先训练文本train_text.txt文件内容如下: 优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇.2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家 中国 ...

最新文章

  1. DOM4J_Xpath的XML操作总结
  2. Linux下源码安装软件
  3. 《微机原理及接口技术》第05章在线测试
  4. 【XAudio2】1.XAudio2 介绍
  5. 【LeetCode算法题库】Day5:Roman to Integer Longest Common Prefix 3Sum
  6. PHP发送数据到指定方法,php通过header发送自定义数据方法_php技巧
  7. 2 Hadoop的安装与配置
  8. 计算机类产品评价技术指标体系研究之图形(像)篇
  9. 线程通信的经典问题:生产者消费者问题
  10. 从搭建大数据环境说起,到执行WordCount所遇到的坑
  11. Android应用程序启动过程源代码分析(5)
  12. percona-distribution-mysql-pxc
  13. java .class 实例对象_通过Class类获取对象(实例讲解)
  14. 今日头条成锤子“接盘侠”?“是真的!”
  15. 【 Gym - 101138K 】 The World of Trains (DP)
  16. 张一鸣辞职,没那么简单
  17. android6.0显示系统 6,Android6.0 显示系统(四) 图像显示相关
  18. 独木舟上的旅行java_南阳ACM 题目71:独木舟上的旅行 Java版
  19. 四核处理器_一千块普通办公电脑配置清单,还是四核处理器,能玩TX全家桶
  20. 手机恢复出厂设置难防泄密:微信聊天记录可恢复

热门文章

  1. 边缘计算是5G应用的核心平台 , 产业空间广阔
  2. VS2005 制作安装程序
  3. 美企暂停俄罗斯业务,凸显国内企业阿里等自研操作系统前瞻性
  4. 网页元素常见的定位方式
  5. 山石岩读丨一文读懂区块链安全:区块链到底是什么?
  6. 出门问问又出音箱了,除了造型大变样,「工作地点」开始从家里转移到你的裤兜里
  7. linux服务器怎么添加路由,linux系统中添加路由的方法
  8. 乡村夜游项目如何打造创新体验模式
  9. 基于51单片机和OLED屏幕的贪吃蛇游戏
  10. css基础--vertical-align