" > corpus.txt

```

因为这些数据虽然去除了其他标签的数据,但是却把保留下来了,所以后来作者在分词程序中去除了这个标签

我在这个[网页](http://www.jb51.net/article/65497.htm)上找到了一个python去标签的简单代码。但是没有实验过,不知效果怎么样:

这段代码可以用于去除文本里的字符串标签,不包括标签里面的内容

```

import re

html='脚本之家,Python学习!'

dr = re.compile(r']+>',re.S)

dd = dr.sub('',html)

print(dd)

```

运行结果如下:

```

脚本之家,Python学习!

```

##实验

整理之后就可以在bin文件夹下运行程序了,图片和参数解释来自[这里](http://blog.csdn.net/heyongluoyao8/article/details/43488765),代码如下:

```

time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15

```

![这里写图片描述](https://img-blog.csdn.net/20150204220148669?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGV5b25nbHVveWFvOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)

-time 会在结果前输出实验用的时间,当然如果不需要的话,可以去掉

-train 训练数据

-output 结果输入文件,即每个词的向量,也可以output为txt文件,但是txt文件没有直接用./distance

-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些(0的情况跑了2个小时,1的时候跑了50分钟)

-size 表示输出的词向量维数

-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)

-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚

-hs 是否使用HS方法,0表示不使用,1表示使用

-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样

-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型

-iter 迭代次数

除了上面所讲的参数,还有:

-alpha 表示 学习速率

-min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃

-classes 表示词聚类簇的个数,从相关源码中可以得出该聚类是采用k-means

跑完后,用下面的命令启动距离计算,然后输入文字

```

./distance vectors.bin

```

至于聚类,只需要另一个命令即可:

```

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

```

按类别排序:

```

sort classes.txt -k 2 -n > classes.sorted.txt

```

##应用

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

这篇文章介绍了word2vec如何应用在广告推荐中

#2. Tensorflow中的word2vec

现在word2vec已经集成到了tensorflow中

使用tensorflow下的word2vec模型

[官网](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding)中给的例子:

**Word2Vec Tutorial**

To download the example text and evaluation data:

```

wget http://mattmahoney.net/dc/text8.zip -O text8.zip

unzip text8.zip

wget https://storage.googleapis.com/google-code-archive-source/v2/code.google.com/word2vec/source-archive.zip

unzip -p source-archive.zip word2vec/trunk/questions-words.txt > questions-words.txt

rm source-archive.zip

```

Assuming you are using the pip package install and have cloned the git repository, navigate into this directory and run using:

```

cd tensorflow/models/embedding

python word2vec_optimized.py \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

To run the code from sources using bazel:

```

bazel run -c opt tensorflow/models/embedding/word2vec_optimized -- \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

我虽然跑通了程序,在tmp文件夹中也生成了几个文件,但是完全不知道怎么用。。。。。

#3. gensim的word2vec

请参考这篇教程

http://blog.csdn.net/Star_Bob/article/details/47808499

##参考

[Windows下使用Word2vec继续词向量训练](http://blog.csdn.net/heyongluoyao8/article/details/43488765)

[利用word2vec对关键词进行聚类](http://blog.csdn.net/zhaoxinfan/article/details/11069485)

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

word2vec应用场景_word2vec的使用参数解释和应用场景相关推荐

  1. XGBoost-Python完全调参指南-参数解释篇

    本文转自XGBoost-Python完全调参指南-参数解释篇.对XGBoost有需要小伙伴可以参看.并在此基础上,添加了一些内容. 在analytics vidhya上看到一篇<Complete ...

  2. x264中重要结构体参数解释,参数设置,函数说明

    x264中重要结构体参数解释 http://www.usr.cc/thread-51995-1-3.html x264参数设置 http://www.usr.cc/thread-51996-1-3.h ...

  3. 接口压测实践-压力测试常见参数解释说明

    使用场景​ 对指定接口进行性能测试时,一些常见参数解释说明. 一键并发​ 可以通过下载最新版的 Apipost 客户端实现单接口的高性能一键并发压测,如下图所示 注意:请勿设置太大的并发量或者循环次数 ...

  4. my.cnf 配置文件参数解释

    my.cnf 配置文件参数解释: #*** client options 相关选项 ***# #以下选项会被MySQL客户端应用读取.注意只有MySQL附带的客户端应用程序保证可以读取这段内容.如果你 ...

  5. UWSGI配置参数解释

    UWSGI组成 一.首先我们要知道uwsgi的组成,这样才能在需要配置时精准找到需要配置的内容.uwsgi组成部分包含 核心(包含配置实现.进程管理.socket创建.监控.日志.共享内存区域.IPC ...

  6. /etc/sysctl.conf参数解释

    /etc/sysctl.conf参数解释: fs.file max = 999999 #表示进程(例如一个worker进程)可能同时打开的最大句柄数,直接限制最大并发连接数net.ipv4.tcp_t ...

  7. lcd参数解释及刷新率计算,LCD时序

    一.LCD显示图像的过程如下: 其中,VSYNC和HSYNC是有宽度的,加上后如下: 参数解释: HBP(Horizontal Back Porch)水平后沿:在每行或每列的象素数据开始输出时要插入的 ...

  8. CNN tflearn处理mnist图像识别代码解说——conv_2d参数解释,整个网络的训练,主要就是为了学那个卷积核啊。...

    官方参数解释: Convolution 2D tflearn.layers.conv.conv_2d (incoming, nb_filter, filter_size, strides=1, pad ...

  9. sklearn之pipeline:sklearn.pipeline函数使用及其参数解释之详细攻略

    sklearn之pipeline:sklearn.pipeline函数使用及其参数解释之详细攻略 目录 sklearn.pipeline函数使用及其参数解释 sklearn.pipeline函数使用及 ...

最新文章

  1. 对比学习还能这样用:字节推出真正的多到多翻译模型mRASP2
  2. ArcGIS Engine 10.2开发环境搭建
  3. 物联网是互联网发展的必然趋势吗?
  4. pb怎么设置 allow editing_Deno TCP Echo Server 是怎么运行的?
  5. java hashcode返回值_Java HashMap返回值未根据我对equals和hashcode的理解进行确认
  6. python下载大文件mp4_Python 下载 m3u8 格式视频
  7. Libre-SOC 系统级芯片
  8. vscode启动项目报jdk11没有_JDK 11 安装过程(同时已安装了JDK 8)以及Intellij IDEA 配置...
  9. 无人机探测雷达软硬件解决方案
  10. 安装Ubuntu系统时硬盘分区最合理的方法
  11. 纯HTML标签详解(摘自阿里西西)
  12. 用JAVA制作ICQ
  13. Java+SQLServer实现——网上图书馆借还管理系统
  14. Java常量池[乐乐独记]
  15. 苹果cms影视建站系统免费吗?
  16. python:numpy的corrcoef计算相关系数
  17. 拳头的国人动画师,是这样让《英雄联盟》里的角色变成“戏精”的
  18. 用OBS直播时麦克风有杂音,求怎么取消。
  19. wps演示文稿训练心得---实用版
  20. storm trident

热门文章

  1. 文档中根元素后面的标记格式必须正确。
  2. SQL学习笔记之存储过程的编写
  3. 3d翻转 ios_iOS自定义转场详解04——实现3D翻转效果
  4. Git的安装(附安装包)
  5. java xml出错,Java xml出现错误 javax.xml.transform.TransformerException: java.lang.NullPointerException...
  6. go将服务器图片响应给客户端,Go中来自客户端和服务器的RPC
  7. docker修改容器名字
  8. SQL Server数据库字段类型详解
  9. php位运算重要吗,PHP位运算的用途
  10. gettimeofday函数