文档信息的向量化-词袋模型、gensim实现和词条分布

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)

通过.属性来使用

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)
obj3 = dct.doc2idx(['this', 'is', 'a', 'dog', 'not', 'cat'])
print(obj3)

import pandas as pd
import jieba
#  设定分词以及清楚停用词函数
#  熟悉python的话，可以直接使用open('stopword.txt').readlines() 获取停用词list，效率会更高
stoplist = list(pd.read_csv('../data/停用词.txt', names=['w'], sep='aaa', encoding='utf-8').w)def m_cut(text):return [word for word in jieba.cut(text) if word not in stoplist and len(word) > 1]

#  设定数据库转换函数
def m_appdf(chapnum):tmpdf = pd.DataFrame(m_cut(chapter.txt[chapnum + 1]), columns=['word'])tmpdf['chap'] = chapter.index[chapnum]return tmpdf#  全部读入并存入数据框
df0 = pd.DataFrame(columns=['word', 'chap'])  # 初始化结果数据框
for i in range(len(chapter)):df0 = df0.append(m_appdf(i))
df0.head()

#  输出为序列格式
df0.groupby(['word', 'chap']).agg('size').tail(10)

#  直接输出为数据框
t2d = pd.crosstab(df0.word, df0.chap)
t2d

#  计算词条出现的总频率，准备进行低频词的删除
totnum = t2d.agg(func='sum', axis=1)
totnum

totclear = t2d.iloc[list(totnum >= 10)]
totclear

文档信息的向量化-词袋模型、gensim实现和词条分布相关推荐

文档信息的向量化-NNLM模型和word2vec
文档信息的向量化-NNLM模型和word2vec
MATLAB【四】 ————批量适配图片信息与excel/txt等文档信息，批量移动拷贝图片，批量存图片中点和方框
1.批量读取图片,批量读取文件 2.适配文件与excel.txt等文档信息 3.获取显示图片ROI.Point.rect.更改像素值 4.批量移动拷贝图片,批量显示 5.保存显示图片或者图片中的点和方 ...
利用eoLinker快速录入Api接口文档信息
传统的接口信息录入过程太过繁琐,而最近在线接口文档编写的平台变得越来越多,我参考了知乎上推荐的几款接口平台,eoLinker是用过几天之后觉得还不错的,特此记录一下如何通过它来实现快速录入Api接口文 ...
Python借助jieba包对中文txt文档去停用词、分词
Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...
python文档相似性比较代码_Python使用gensim计算文档相似性
pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jie ...
python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码
要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...
AD 文档信息设置和制作模板
原理图文档模板制作方法一.在DXP2004/AD6.0/AD6.3原理图设计环境下,新建一个自由原理图文档.单击:文件→ 新建→原理图,或者使用快捷键Ctrl+N打开Files资源面板,在" ...
如何复制加密PDF文件的文档信息
在看论文时发现文档被加密了,无法复制里面的文字信息,所以搜寻可以打开加密文档的方式. 方法一: 将PDF文件用浏览器打开,即可复制里面的文本信息: 此时,即可右击复制选中内容: 方法二: 将想复制内容 ...
Excel电子表格提取word文档信息|Word魔方
日常工作中经常遇到大量格式一致的word文档,有时候我们需要批量提取文档中的信息. 我们要提取:姓名.性别.年龄.籍贯.身份证号. 我们使用Word魔方的[提取多文档数据到Excel]功能来快速提取. ...

文档信息的向量化-词袋模型、gensim实现和词条分布

文档信息的向量化-词袋模型、gensim实现和词条分布

文档信息的向量化-词袋模型、gensim实现和词条分布相关推荐

最新文章

热门文章