文档信息的向量化-词袋模型、gensim实现和词条分布
文档信息的向量化-词袋模型、gensim实现和词条分布
from gensim import corpora
texts = [['human', 'interface', 'computer']]
# fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
通过.属性来使用
from gensim import corpora
texts = [['human', 'interface', 'computer']]
# fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
# 向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
from gensim import corpora
texts = [['human', 'interface', 'computer']]
# fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
# 向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)
from gensim import corpora
texts = [['human', 'interface', 'computer']]
# fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
# 向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)
obj3 = dct.doc2idx(['this', 'is', 'a', 'dog', 'not', 'cat'])
print(obj3)
import pandas as pd
import jieba
# 设定分词以及清楚停用词函数
# 熟悉python的话,可以直接使用open('stopword.txt').readlines() 获取停用词list,效率会更高
stoplist = list(pd.read_csv('../data/停用词.txt', names=['w'], sep='aaa', encoding='utf-8').w)def m_cut(text):return [word for word in jieba.cut(text) if word not in stoplist and len(word) > 1]
# 设定数据库转换函数
def m_appdf(chapnum):tmpdf = pd.DataFrame(m_cut(chapter.txt[chapnum + 1]), columns=['word'])tmpdf['chap'] = chapter.index[chapnum]return tmpdf# 全部读入并存入数据框
df0 = pd.DataFrame(columns=['word', 'chap']) # 初始化结果数据框
for i in range(len(chapter)):df0 = df0.append(m_appdf(i))
df0.head()
# 输出为序列格式
df0.groupby(['word', 'chap']).agg('size').tail(10)
# 直接输出为数据框
t2d = pd.crosstab(df0.word, df0.chap)
t2d
# 计算词条出现的总频率,准备进行低频词的删除
totnum = t2d.agg(func='sum', axis=1)
totnum
totclear = t2d.iloc[list(totnum >= 10)]
totclear
文档信息的向量化-词袋模型、gensim实现和词条分布相关推荐
- 文档信息的向量化-NNLM模型和word2vec
文档信息的向量化-NNLM模型和word2vec
- MATLAB【四】 ————批量适配图片信息与excel/txt等文档信息,批量移动拷贝图片,批量存图片中点和方框
1.批量读取图片,批量读取文件 2.适配文件与excel.txt等文档信息 3.获取显示图片ROI.Point.rect.更改像素值 4.批量移动拷贝图片,批量显示 5.保存显示图片或者图片中的点和方 ...
- 利用eoLinker快速录入Api接口文档信息
传统的接口信息录入过程太过繁琐,而最近在线接口文档编写的平台变得越来越多,我参考了知乎上推荐的几款接口平台,eoLinker是用过几天之后觉得还不错的,特此记录一下如何通过它来实现快速录入Api接口文 ...
- Python借助jieba包对中文txt文档去停用词、分词
Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...
- python文档相似性比较代码_Python使用gensim计算文档相似性
pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jie ...
- python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码
要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...
- AD 文档信息设置和制作模板
原理图文档模板制作方法 一.在DXP2004/AD6.0/AD6.3原理图设计环境下,新建一个自由原理图文档.单击:文件→ 新建→原理图,或者使用快捷键Ctrl+N打开Files资源面板,在" ...
- 如何复制加密PDF文件的文档信息
在看论文时发现文档被加密了,无法复制里面的文字信息,所以搜寻可以打开加密文档的方式. 方法一: 将PDF文件用浏览器打开,即可复制里面的文本信息: 此时,即可右击复制选中内容: 方法二: 将想复制内容 ...
- Excel电子表格提取word文档信息|Word魔方
日常工作中经常遇到大量格式一致的word文档,有时候我们需要批量提取文档中的信息. 我们要提取:姓名.性别.年龄.籍贯.身份证号. 我们使用Word魔方的[提取多文档数据到Excel]功能来快速提取. ...
最新文章
- 统计分组的原则是要体现什么_统计学简答题
- tensorflow常见函数——clip_by_value、numpy.random.RandomState、argmax
- SSM中进行Junit单元测试时无法注入service
- 科大星云诗社动态20210120
- MySQL配置慢查询日志及使用说明
- SAP Marketing Cloud功能简述(一)Contacts和Profiles
- elasticsearch设置为windows系统服务
- 机器学习第六回——降维+异常检测
- 关于transformer是如何处理图像的
- 一张图学会python应用到excel-简单使用python做excel多文件批量搜索(带图形界面)(已更新)...
- ZOJ 3256 Tour in the Castle(插头DP-按行递推—矩阵)
- 照片尺寸对照单Microsoft Word 文档
- 查询淘宝京东商品历史价格的方法
- python线程池原理及使用
- 深度学习: ground truth 解释
- Python极简入门教程
- java执行sql列名无效_sqlserver列名无效调试及解决方法
- 经典面试题扔鸡蛋(Google面试题附带LeetCode例题)
- c++数据结构二叉树(二叉链表实现)基本操作实现
- pinyin4j NullPointerException: null空指针异常