文章目录

    • 一、Doc2Vec模型
      • 1 、PV-DM
      • 2 、PV-DBOW
    • 二、gensim实现
      • 1、gensim实现Doc2Vec(IMDB数据集)
      • 2、gensim实现Doc2Vec(中文数据集)
    • 三、总结
    • 四、程序编写时遇到的错误:
    • gensim包中相关函数说明:
  • 参考资料:

一、Doc2Vec模型

  许多机器学习算法需要的输入是一个固定长度的向量,当涉及到短文时,最常用的固定长度的向量方法是词袋模型(bag-of-words)。尽管它很流行,但是词袋模型存在两个主要的缺点:一个是词袋模型忽略词序,如果两个不同的句子由相同的词但是顺序不同组成,词袋模型会将这两句话定义为同一个表达;另一个是词袋模型忽略了语义,这样训练出来的模型会造成类似’powerful’,'strong’和’Paris’的距离是相同的,而其实’powerful’应该相对于’Paris’距离’strong’更近才对。

  Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,其具有一些优点,比如不用固定句子长度,可以接受不同长度的句子做训练样本,Doc2vec是一个无监督学习算法,该算法用于向量来表示文档,该模型的结构潜在的克服了词袋模型的缺点。

  另外,word2vec预测词向量时,预测出来的词是含有词义的,比如上文提到的词向量’powerful’会相对于’Paris’离’strong’距离更近,在Doc2vec中也构建了相同的结构。所以Doc2vec克服了词袋模型中没有语义的去缺点。假设现在存在训练样本,每个句子是训练样本。


1 、PV-DM

  Doc2vec有两种训练方式,一种是PV-DM(Distributed Memory Model of paragraphvectors)类似于word2vec中的CBOW模型,如下图

图:PV-DM模型

  PV-DM模型,每次从一句话中滑动采样固定长度的词,取其中一个词作预测词,其他的作输入词。输入词对应的词向量word vector和本句话对应的句子向量Paragraph vector作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,进而使用这个向量X预测此次窗口内的预测词。

  Doc2vec相对于word2vec不同之处在于,在输入层,增添了一个新句子向量Paragraph vector,Paragraph vector可以被看作是另一个词向量,它扮演了一个记忆。词袋模型中,因为每次训练只会截取句子中一小部分词训练,而忽略了除了本次训练词以外该句子中的其他词,这样仅仅训练出来每个词的向量表达,句子只是每个词的向量累加在一起表达的。正如上文所说的词袋模型的缺点,忽略了文本的词序问题。而Doc2vec中的Paragraph vector则弥补了这方面的不足,它每次训练也是滑动截取句子中一小部分词来训练,Paragraph Vector在同一个句子的若干次训练中是共享的,所以同一句话会有多次训练,每次训练中输入都包含Paragraph vector。它可以被看作是句子的主旨,有了它,该句子的主旨每次都会被放入作为输入的一部分来训练。这样每次训练过程中,不光是训练了词,得到了词向量。同时随着一句话每次滑动取若干词训练的过程中,作为每次训练的输入层一部分的共享Paragraph vector,该向量表达的主旨会越来越准确。Doc2vec中PV-DM模型具体的训练过程和word2vec中的CBOW模型训练方式相同,都是采用随机梯度下降来进行优化模型的参数的。

  训练完,就会得到训练样本中所有的词向量和每句话对应的句子向量,那么Doc2vec是怎么预测新的句子Paragraph vector呢?其实在预测新的句子的时候,还是会将该Paragraph vector随机初始化,放入模型中再重新根据随机梯度下降不断迭代求得最终稳定下来的句子向量。不过在预测过程中,模型里的词向量还有投影层到输出层的softmax weights参数是不会变的,这样在不断迭代中只会更新Paragraph vector,其他参数均已固定,只需很少的时间就能计算出带预测的Paragraph vector。


2 、PV-DBOW

  Paragraph Vector的另一种模型是PV-DBOW(Distributed Bag of Words of paragraph vector)类似于word2vec中的skip-gram模型,如下图:

图:PV-DBOW模型

  该模型原理和PV-DM模型相同,但是该模型的输入是paragraph id的句向量,在随机梯度下降的每一次迭代中采样一个文本窗口(text window),再从该文本窗口中随机采样一个词,从而形成一个给定段落向量进行词预测的多分类任务。该模型和Skip-gram模型相似。

二、gensim实现

1、gensim实现Doc2Vec(IMDB数据集)

  使用Doc2Vec进行分类任务,我们使用 IMDB电影评论数据集作为分类例子,测试gensim的Doc2Vec的有效性。数据集中包含25000条正向评价,25000条负面评价以及50000条未标注评价。

2、gensim实现Doc2Vec(中文数据集)

  在python中gensim包就很好的实现了Doc2vec,我们调用使用方便快捷,在这简单演示下。
1、数据集:从网上下载的“基于社交媒体的海南旅游景区评价数据集”。另外停用词表也是从网上下载的。
下载地址为:http://www.sciencedb.cn/dataSet/handle/714
  因为数据集是分布在多个excel文件中的,所以我编写了函数get_file_data_to_a_file(),将美团文件夹下的前4个文件中的数据合并到一个excel文件train_excel.xlsx中。共7319条数据。代码如下:

# -*- coding: utf-8 -*-import xlrd
import xlsxwriter
import osdef get_file_data_to_a_file(path):'''读取文件路径下的所有文件到一个文件路径列表中,并依次读取每个文件中的数据最后将所有数据保存到一个文件中'''paths = os.listdir(path)file_paths = []for file_name in paths:if os.path.splitext(file_name)[1] == ".xlsx":file_paths.append(path+file_name)rvalues =[]for i, file in enumerate(file_paths): #遍历文件列表pathsfh = xlrd.open_workbook(file) #打开一个excel文件
#            sheet_name = os.path.splitext(file_name)[0]table = fh.sheets()[0] #获取excel文件的第一个sheet表num_rows = table.nrows #该表的的所有行数for row in range(num_rows):rdata=table.row_values(row) #获取每一行的数据rvalues.append(rdata)endfile='train_excel.xlsx'wb1=xlsxwriter.Workbook(endfile)ws=wb1.add_worksheet() #添加一个新的工作表for a in range(len(rvalues)):for b in range(len(rvalues[a])):c=rvalues[a][b]ws.write(a,b,c)wb1.close()print("文件合并完成")if __name__ == "__main__":get_file_data_to_a_file("./meituan/")

2、具体的Doc2vec训练Paragraph vector步骤如下:

步骤1:导入数据集,提取comment列(该列是用户评价的内容)。

def getText(path):df_train = pd.read_excel('train_excel.xlsx')comment_train = list(df_train['comment'].astype(str))return comment_traintext = getText("./")
print(text[0:10]) #打印前10行数据

运行结果如下:

步骤2:将提取好的comment列中的内容进行分词,并去除停用词。

def cut_sentence(text):stop_list = [line[:-1] for line in open("中文停用词表.txt",encoding='gb18030', errors='ignore')]result = []for each in text:each_cut = jieba.cut(each)each_split = ' '.join(each_cut).split()each_result = [word for word in each_split if word not in stop_list] #去除停用词result.append(' '.join(each_result))return resultb = cut_sentence(text)
print(b[0:10])

运行结果如下:

步骤3:改变成Doc2vec所需要的输入样本格式,由于gensim里Doc2vec模型需要的输入为固定格式,输入样本为:[句子,句子序号],这里需要用gensim中Doc2vec里的TaggedDocument来包装输入的句子。

TaggededDocument=gensim.models.doc2vec.TaggedDocumentdef X_train(cut_sentence):x_train = []for i, text in enumerate(cut_sentence):word_list = text.split(' ')l = len(word_list)word_list[l-1] = word_list[l-1].strip()document = TaggededDocument(word_list,tags=[i])x_train.append(document)return x_trainc = X_train(b)
print(c[0:10])

运行结果如下:

步骤4:加载Doc2vec模型,并开始训练。

def train(x_train, size=300):model = Doc2Vec(x_train,min_count=1,window=3,size=size,sample=1e-3,negative=5,workers=4)model.train(x_train,total_examples=model.corpus_count,epochs=10)return modelmodel_dm = train(c)

步骤5:模型训练完毕以后,就可以预测新的句子的向量Paragraph vector了,这里用gensim里Doc2Vec.infer_vector()预测新的句子,这里根据经验,alpha(学习步长)设置小一些,迭代次数设置大一些。找到训练样本中与这个句子最相近的10个句子。可以看到训练出来的结果与测试的新句子是有关联的。

#str1 = u'这里 的 演出 真的 很 棒 !'
str1 = u'一点 都 不 好玩'
test_text = str1.split(' ')
inferred_vector = model_dm.infer_vector(doc_words=test_text,alpha=0.025,steps=300)sims = model_dm.docvecs.most_similar([inferred_vector],topn=10)
for count,sim in sims:sentence = text[count]words = ''for word in sentence:words = words + word + ' 'print(words, sim, len(sentence))

运行结果如下:

从结果可以看出,预测的相似的句子还是有一定的可信度的。

三、总结

  Doc2vec是基于Word2vec基础上构建的,相比于Word2vec,Doc2vec不仅能训练处词向量还能训练处句子向量并预测新的句子向量。Doc2vec模型结构相对于Word2vec,不同点在于在输入层上多增加了一个Paragraph vector句子向量,该向量在同一句下的不同的训练中是权值共享的,这样训练出来的Paragraph vector就会逐渐在每句子中的几次训练中不断稳定下来,形成该句子的主旨。这样就训练出来了我们需要的句子向量。在预测新的句子向量时,是需要重新训练的,此时该模型的词向量和投影层到输出层的soft weights参数固定,只剩下Paragraph vector用梯度下降法求得,所以预测新句子时虽然也要放入模型中不断迭代求出,相比于训练时,速度会快得多。本次使用的数据集为情感分析,且大多数样本偏向于好评,样本内容比较单一,所以训练出来的结果都是偏向于哪里好玩,好不好这类的意思,对于一些特定的问题之类的句子准确性还没有验证,目前用于情感分析还是可以的。下次会尝试使用新的数据集,调试参数看是否会取得更好的结果。

四、程序编写时遇到的错误:

  1. 通过python读取停用词表文本内容时,出现如下错误:

    解决方法:
    使用‘ignore’属性忽略非法字符,如:
  2. jieba分词出现如下错误:AttributeError: ‘float’ object has no attribute ‘decode’
    解决方法:

gensim包中相关函数说明:

gensim.models.doc2vec.Doc2Vec(
documents=None,
size=300,
alpha=0.025,
window=8,
min_count=5,
max_vocab_size=None,
sample=0,
seed=1,
workers=1,
min_alpha=0.0001,
dm=1,
hs=1,
negative=0,
dbow_words=0,
dm_mean=0,
dm_concat=0,
dm_tag_count=1,
docvecs=None,
docvecs_mapfile=None,
comment=None,
trim_rule=None,
**kwargs)
  • size 是特征向量的纬度。

  • window 是要预测的词和文档中用来预测的上下文词之间的最大距离。

  • alpha 是初始化的学习速率,会随着训练过程线性下降。

  • seed 是随机数生成器。.需要注意的是,对于一个完全明确的重复运行(fully deterministically-reproducible run),你必须同时限制模型单线程工作以消除操作系统线程调度中的有序抖动。(在python3中,解释器启动的再现要求使用PYTHONHASHSEED环境变量来控制散列随机化)

  • min_count 忽略总频数小于此的所有的词。

  • max_vocab_size 在词汇累积的时候限制内存。如果有很多独特的词多于此,则将频率低的删去。每一千万词类大概需要1G的内存,设为None以不限制(默认)。

  • sample 高频词被随机地降低采样的阈值。默认为0(不降低采样),较为常用的事1e-5。

  • dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。

  • workers 使用多少现成来训练模型(越快的训练需要越多核的机器)。

  • iter 语料库的迭代次数。从Word2Vec中继承得到的默认是5,但在已经发布的‘Paragraph Vector’中,设为10或者20是很正常的。

  • hs 如果为1 (默认),分层采样将被用于模型训练(否则设为0)。

  • negative 如果 > 0,将使用负采样,它的值决定干扰词的个数(通常为5-20)。

  • dm_mean 如果为0(默认),使用上下文词向量的和;如果为1,使用均值。(仅在dm被用在非拼接模型时使用)

  • dm_concat 如果为1,使用上下文词向量的拼接,默认是0。注意,拼接的结果是一个更大的模型,输入的大小不再是一个词向量(采样或算术结合),而是标签和上下文中所有词结合在一起的大小。

  • dm_tag_count 每个文件期望的文本标签数,在使用dm_concat模式时默认为1。

  • dbow_words 如果设为1,训练word-vectors (in skip-gram fashion) 的同时训练 DBOW doc-vector。默认是0 (仅训练doc-vectors时更快)。

  • trim_rule 词汇表修建规则,用来指定某个词是否要被留下来。被删去或者作默认处理 (如果词的频数< min_count则删去)。可以设为None (将使用min_count),或者是随时可调参 (word, count, min_count) 并返回util.RULE_DISCARD,util.RULE_KEEP ,util.RULE_DEFAULT之一。注意:这个规则只是在build_vocab()中用来修剪词汇表,而且没被保存。

参考资料:

1、基于社交媒体的海南旅游景区评价数据集:http://www.sciencedb.cn/dataSet/handle/714
2、博客: https://yq.aliyun.com/articles/623606?spm=a2c4e.11153940.0.0.91a74a54EwRIda
3、gensim 官网: https://radimrehurek.com/gensim/models/doc2vec.html
4、论文《Distributed representations of sentences and documents 》

Doc2Vec模型的介绍与gensim中Doc2Vec的使用相关推荐

  1. gensim中tfidf计算方法

    基本原理和思想呢,大概就是 文档中词的重要性 与 TF:每个文档中的词的频率成正比 与 IDF: 词在文档中出现的次数/总文档数 的比例成反比 但是计算的过程中有很多变体,下面就举例介绍一下 gens ...

  2. NLP14-基于Gensim中的Doc2Vec的试探

    摘要:经过加载数据,分词,运行Gensim中的Doc2Vec进行训练并作文本相似性的预测,可实验的结果不满意,有待进一步研究Doc2Vec. 关于Doc2Vec的论文:http://cs.stanfo ...

  3. Doc2Vec的简介及应用(gensim)

    作者:Gidi Shperber 在本文中,你将学习什么是doc2vec,它是如何构建的,它与word2vec有什么关系,你能用它做什么,并且没有复杂的数学公式. 介绍 文本文档的量化表示在机器学习中 ...

  4. python文本相似度检测框架_机器学习入门之使用gensim 的 doc2vec 实现文本相似度检测...

    本文主要向大家介绍了机器学习入门之使用gensim 的 doc2vec 实现文本相似度检测,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助.环境 Python3, gensim,jieb ...

  5. python 文本相似度_【机器学习】使用gensim 的 doc2vec 实现文本相似度检测

    环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值. Gensim gensim是一个python的自然语言处理库,能够将文档 ...

  6. gensim实现Doc2Vec和Word2Vec

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 在处理文本时,经常需要将其转化成向量的形式,然后去做分类 ...

  7. 基于gensim的Doc2Vec\word2vec简析,以及用python 实现简要代码,

    文章目录 @[toc] Doc2Vec 原理: 两种实现方法 Doc2Vec 原理: Doc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法 ...

  8. gensim中动态主题模型(DTM)两种实现方法(一)

    目录 (一)gensim.models.ldaseqmodel包 1.基本使用方法 2.缩水的地方 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.没有c ...

  9. gensim中动态主题模型(DTM)两种实现方法(二)

    第一部分内容请点此阅读:gensim中动态主题模型(DTM)两种实现方法(一) 目录 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.如何使用呢? 2.c ...

最新文章

  1. tkinter实现弹出输入对话框并获取输入对话框中的值
  2. 阿里云实时计算的前世“功”今生“能”
  3. linux通配符和正则表达式的区别总结
  4. java 图像处理 空白_使用Java进行图像处理的一些基础操作
  5. 关于TCP/IP必须知道的几个基础问题
  6. SQLCE 3.5 部署打包
  7. SQL Server事务日志–第2部分–日志性能问题的主要原因
  8. war包怎么解压_微信猫和老鼠主题怎么搞?快来看
  9. JS判断浏览器语言及终端类型(android/ios)
  10. 液压系统管路流速推荐表_(整理)液压系统油管选择.
  11. c语言头文件sys wait.h,错误:sys/wait.h:没有这样的文件或目录
  12. 温州大学计算机学硕考研难度,2020年温州大学计算机科学与技术考研经验分享...
  13. SolidWorks导入3DSource零件库的模型方法介绍
  14. Verliog 写电子密码锁
  15. Numpy数组的索引与切片:取数组的特定行列
  16. 检测特殊字符的正则表达式
  17. android手机到iphone6s,iPhone6s相当于现在什么档次的安卓手机?结果让国产手机品牌汗颜...
  18. 两个平板打天下-将中国看做一个城市圈,漉战移动互联网、高铁时代
  19. 论文排版中的页眉页脚设置
  20. 程序人生 - 西瓜霜能吃下去吗?

热门文章

  1. Android自定义键盘
  2. cdr怎么新建和删除图层
  3. 良心推荐:某音上最厉害的明日之后房子蓝图设计师都在这里了
  4. 网易云信技术创新,助力网易云音乐社交玩法升级
  5. @Transactional的readOnly、timeout
  6. 深度操作系统 deepin V23 Beta 发布
  7. 如何进行PDF页码删除操作 删除页面的技巧有那些
  8. Android4: Write Storage权限问题
  9. 51单片机精确延时设计
  10. java调用ffmpeg把rtsp视频流保存为MP4文件