python 词向量_利用python实现词向量训练----
python的一堆工具包
https://www.lfd.uci.edu/~gohlke/pythonlibs/
------------------------------------------------------------------------
貌似遇见了自然语言处理的行家
我们参考以下的链接
https://www.jianshu.com/u/c5df9e229a67
https://www.jianshu.com/p/05800a28c5e4
----------------------------------------------------------------------------
2.下载完 需要用process_wiki.py脚本来解析xml文件
3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,
执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):
4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词
5.然后开始训练需要文件:train_word2vec_model.py
执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector
----------------------------------------------维基语料下载太慢 直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料
语料
首先:
我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。
1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip
2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107
wheel已经安装完毕 https://www.cnblogs.com/cysblog/p/7675713.html
安装numpy的时候一直说版本不对应,出现以下错误
查询资料后才知道下载页面numpy的参数表示:
cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl
a. 前面的表示numpy的版本号,一般选择最新版本就好
b. 中间的cp35,表示的就是Python 3.5.*
c. 最后选择和自己电脑位数匹配的版本
3. 将下载后的numpy安装包放到任意文件夹
4. 打开控制台,进入到保存numpy安装包的文件夹
5. 输入安装指令
经测试,终于安装成功。
安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。
带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量
训练文件执行到上图所示的部分,是否训练成功????
执行到此 表示训练成功。
-----------------------待分析
简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4
https://blog.csdn.net/grafx/article/details/78575850
https://blog.csdn.net/thriving_fcl/article/details/51406780
https://www.jianshu.com/p/98d84854f7a3
https://www.cnblogs.com/helloever/p/5280891.html
https://www.jianshu.com/p/05800a28c5e4
python 词向量_利用python实现词向量训练----相关推荐
- python 词云_利用Python生成词云
利用Python生成词云 一.第三方库的安装与介绍 1.1 Python第三方库jieba(中文分词) 1.介绍 "结巴"中文分词:做最好的 Python 中文分词组件. 2.特 ...
- 利用python制作漂亮的词云图_利用python制作词云,wordcloud神器你值得拥有
相信许多人都看到过下面这样的词云图,词云图是一种很好的可视化工具,其作用主要是为了文本数据的视觉表示,既酷炫又能突出重点. 关于词云图的制作,网上能够搜集到很多的教程,许多都是利用了专用的工具,这些工 ...
- 如何用python制作画像_利用Python搭建用户画像系统
用户画像是当下很多企业都会提及的概念,多数情况下会和大数据以及营销挂钩.本文将对用户画像的相关知识进行进行简单的介绍,并利用Python去实现一个简单的用户画像系统. 1.什么是用户画像 用户画像可以 ...
- python代码物理_利用python求解物理学中的双弹簧质能系统详解
前言 本文主要给大家介绍了关于利用python求解物理学中双弹簧质能系统的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 物理的模型如下: 在这个系统里有两个物体,它们的质 ...
- python高斯求和_利用Python进行数据分析(3)- 列表、元组、字典、集合
本文主要是对Python的数据结构进行了一个总结,常见的数据结构包含:列表list.元组tuple.字典dict和集合set. image 索引 左边0开始,右边-1开始 通过index()函数查看索 ...
- python数字识别_利用Python进行数字识别
思路 通过Python实现KNN算法.而KNN算法就是K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一 ...
- python照片墙地图_利用python生成照片墙的示例代码
PIL(Python Image Library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库了.其官方主页为:PIL. PIL历 ...
- python图色检测_利用python打开摄像头及颜色检测方法
最近两周由于忙于个人项目,一直未发言了,实在是太荒凉了....,上周由于项目,见到Python的应用极为广泛,用起来也特别顺手,于是小编也开始着手学习Python,-下面我就汇报下今天的学习成果吧 小 ...
- python音频聚类_利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法 ...
- python mysql 分页_利用python对mysql表做全局模糊搜索并分页实例
在写django项目的时候,有的数据没有使用模型管理(数据表是动态添加的),所以要直接使用mysql.前端请求数据的时候可能会指定这几个参数:要请求的页号,页大小,以及检索条件. "&quo ...
最新文章
- OKR落地的四个基本因素是什么?
- 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
- python xmxl 无法启动_/usr/bin/python: can't decompress data; zlib not available 的异常处理
- android 模拟器识别,一种基于符号的识别Android应用运行在模拟器中的方法与流程...
- 数据结构上机测试1:顺序表的应用
- boost::function_types::is_nonmember_callable_builtin用法的测试程序
- 遗忘root用户的密码
- Windows小工具广告弹窗杀手+源码
- 当代年轻人怪现象:体检前万分紧张,体检后熬夜如常
- Flutter基础—手势处理
- Multisium里如何使用多个不同的VCC
- SQL SERVER 事务例子
- 字符串函数和数据类型转换函数
- 微软官网方法制作win10u盘启动
- 『每日AI』马化腾丨中国互联网已从C2C进化为KFC!
- Python+uiautomator2手机UI自动化测试实战
- 阿里智能对话交互技术实践与创新
- 【chrome】chrome百度网盘网页版倍速
- PS如何制作奥运五环
- python 3d图表_matplotlib 三维图表绘制方法简介