python的一堆工具包

https://www.lfd.uci.edu/~gohlke/pythonlibs/

------------------------------------------------------------------------

貌似遇见了自然语言处理的行家

我们参考以下的链接

https://www.jianshu.com/u/c5df9e229a67

https://www.jianshu.com/p/05800a28c5e4

----------------------------------------------------------------------------

2.下载完 需要用process_wiki.py脚本来解析xml文件

3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,

执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):

4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词

5.然后开始训练需要文件:train_word2vec_model.py

执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector

----------------------------------------------维基语料下载太慢  直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料

语料

首先:

我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。

1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip

2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107

wheel已经安装完毕   https://www.cnblogs.com/cysblog/p/7675713.html

安装numpy的时候一直说版本不对应,出现以下错误

查询资料后才知道下载页面numpy的参数表示:

cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl

a. 前面的表示numpy的版本号,一般选择最新版本就好

b. 中间的cp35,表示的就是Python 3.5.*

c. 最后选择和自己电脑位数匹配的版本

3. 将下载后的numpy安装包放到任意文件夹

4. 打开控制台,进入到保存numpy安装包的文件夹

5. 输入安装指令

经测试,终于安装成功。

安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。

带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量

训练文件执行到上图所示的部分,是否训练成功????

执行到此 表示训练成功。

-----------------------待分析

简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4

https://blog.csdn.net/grafx/article/details/78575850

https://blog.csdn.net/thriving_fcl/article/details/51406780

https://www.jianshu.com/p/98d84854f7a3

https://www.cnblogs.com/helloever/p/5280891.html

https://www.jianshu.com/p/05800a28c5e4

python 词向量_利用python实现词向量训练----相关推荐

  1. python 词云_利用Python生成词云

    利用Python生成词云 一.第三方库的安装与介绍 1.1  Python第三方库jieba(中文分词) 1.介绍 "结巴"中文分词:做最好的 Python 中文分词组件. 2.特 ...

  2. 利用python制作漂亮的词云图_利用python制作词云,wordcloud神器你值得拥有

    相信许多人都看到过下面这样的词云图,词云图是一种很好的可视化工具,其作用主要是为了文本数据的视觉表示,既酷炫又能突出重点. 关于词云图的制作,网上能够搜集到很多的教程,许多都是利用了专用的工具,这些工 ...

  3. 如何用python制作画像_利用Python搭建用户画像系统

    用户画像是当下很多企业都会提及的概念,多数情况下会和大数据以及营销挂钩.本文将对用户画像的相关知识进行进行简单的介绍,并利用Python去实现一个简单的用户画像系统. 1.什么是用户画像 用户画像可以 ...

  4. python代码物理_利用python求解物理学中的双弹簧质能系统详解

    前言 本文主要给大家介绍了关于利用python求解物理学中双弹簧质能系统的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 物理的模型如下: 在这个系统里有两个物体,它们的质 ...

  5. python高斯求和_利用Python进行数据分析(3)- 列表、元组、字典、集合

    本文主要是对Python的数据结构进行了一个总结,常见的数据结构包含:列表list.元组tuple.字典dict和集合set. image 索引 左边0开始,右边-1开始 通过index()函数查看索 ...

  6. python数字识别_利用Python进行数字识别

    思路 通过Python实现KNN算法.而KNN算法就是K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一 ...

  7. python照片墙地图_利用python生成照片墙的示例代码

    PIL(Python Image Library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库了.其官方主页为:PIL. PIL历 ...

  8. python图色检测_利用python打开摄像头及颜色检测方法

    最近两周由于忙于个人项目,一直未发言了,实在是太荒凉了....,上周由于项目,见到Python的应用极为广泛,用起来也特别顺手,于是小编也开始着手学习Python,-下面我就汇报下今天的学习成果吧 小 ...

  9. python音频聚类_利用python的KMeans和PCA包实现聚类算法

    题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法 ...

  10. python mysql 分页_利用python对mysql表做全局模糊搜索并分页实例

    在写django项目的时候,有的数据没有使用模型管理(数据表是动态添加的),所以要直接使用mysql.前端请求数据的时候可能会指定这几个参数:要请求的页号,页大小,以及检索条件. "&quo ...

最新文章

  1. OKR落地的四个基本因素是什么?
  2. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
  3. python xmxl 无法启动_/usr/bin/python: can't decompress data; zlib not available 的异常处理
  4. android 模拟器识别,一种基于符号的识别Android应用运行在模拟器中的方法与流程...
  5. 数据结构上机测试1:顺序表的应用
  6. boost::function_types::is_nonmember_callable_builtin用法的测试程序
  7. 遗忘root用户的密码
  8. Windows小工具广告弹窗杀手+源码
  9. 当代年轻人怪现象:体检前万分紧张,体检后熬夜如常
  10. Flutter基础—手势处理
  11. Multisium里如何使用多个不同的VCC
  12. SQL SERVER 事务例子
  13. 字符串函数和数据类型转换函数
  14. 微软官网方法制作win10u盘启动
  15. 『每日AI』马化腾丨中国互联网已从C2C进化为KFC!
  16. Python+uiautomator2手机UI自动化测试实战
  17. 阿里智能对话交互技术实践与创新
  18. 【chrome】chrome百度网盘网页版倍速
  19. PS如何制作奥运五环
  20. python 3d图表_matplotlib 三维图表绘制方法简介

热门文章

  1. 小i机器人在2018硬科技年会上夺双料大奖
  2. 裁员潮此起彼伏,转行数据分析师仍旧可期
  3. PPT - 如何从 PowerPoint 幻灯片中删除幻灯片编号
  4. 并发编程指南(二)Dispatch Queue
  5. 单例模式(懒汉单例和饿汉单例)
  6. 一点体会:找工作这事儿
  7. PLSQL查询语句中日期格式使用不当会导致性能和效率很低
  8. 内外升级动力不变 北京现代第四代途胜上市15.59-23.99万
  9. 理学知识01-ppm、ppb、ppt换算
  10. 动环监控系统的服务器部署在,动环监控系统【斯必得智慧机房】