文档信息的向量化-词袋模型、gensim实现和词条分布

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)

通过.属性来使用

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts)
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)
obj3 = dct.doc2idx(['this', 'is', 'a', 'dog', 'not', 'cat'])
print(obj3)

import pandas as pd
import jieba
#  设定分词以及清楚停用词函数
#  熟悉python的话,可以直接使用open('stopword.txt').readlines() 获取停用词list,效率会更高
stoplist = list(pd.read_csv('../data/停用词.txt', names=['w'], sep='aaa', encoding='utf-8').w)def m_cut(text):return [word for word in jieba.cut(text) if word not in stoplist and len(word) > 1]
#  设定数据库转换函数
def m_appdf(chapnum):tmpdf = pd.DataFrame(m_cut(chapter.txt[chapnum + 1]), columns=['word'])tmpdf['chap'] = chapter.index[chapnum]return tmpdf#  全部读入并存入数据框
df0 = pd.DataFrame(columns=['word', 'chap'])  # 初始化结果数据框
for i in range(len(chapter)):df0 = df0.append(m_appdf(i))
df0.head()

#  输出为序列格式
df0.groupby(['word', 'chap']).agg('size').tail(10)

#  直接输出为数据框
t2d = pd.crosstab(df0.word, df0.chap)
t2d

#  计算词条出现的总频率,准备进行低频词的删除
totnum = t2d.agg(func='sum', axis=1)
totnum

totclear = t2d.iloc[list(totnum >= 10)]
totclear

文档信息的向量化-词袋模型、gensim实现和词条分布相关推荐

  1. 文档信息的向量化-NNLM模型和word2vec

    文档信息的向量化-NNLM模型和word2vec

  2. MATLAB【四】 ————批量适配图片信息与excel/txt等文档信息,批量移动拷贝图片,批量存图片中点和方框

    1.批量读取图片,批量读取文件 2.适配文件与excel.txt等文档信息 3.获取显示图片ROI.Point.rect.更改像素值 4.批量移动拷贝图片,批量显示 5.保存显示图片或者图片中的点和方 ...

  3. 利用eoLinker快速录入Api接口文档信息

    传统的接口信息录入过程太过繁琐,而最近在线接口文档编写的平台变得越来越多,我参考了知乎上推荐的几款接口平台,eoLinker是用过几天之后觉得还不错的,特此记录一下如何通过它来实现快速录入Api接口文 ...

  4. Python借助jieba包对中文txt文档去停用词、分词

    Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...

  5. python文档相似性比较代码_Python使用gensim计算文档相似性

    pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jie ...

  6. python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码

    要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...

  7. AD 文档信息设置和制作模板

    原理图文档模板制作方法 一.在DXP2004/AD6.0/AD6.3原理图设计环境下,新建一个自由原理图文档.单击:文件→ 新建→原理图,或者使用快捷键Ctrl+N打开Files资源面板,在" ...

  8. 如何复制加密PDF文件的文档信息

    在看论文时发现文档被加密了,无法复制里面的文字信息,所以搜寻可以打开加密文档的方式. 方法一: 将PDF文件用浏览器打开,即可复制里面的文本信息: 此时,即可右击复制选中内容: 方法二: 将想复制内容 ...

  9. Excel电子表格提取word文档信息|Word魔方

    日常工作中经常遇到大量格式一致的word文档,有时候我们需要批量提取文档中的信息. 我们要提取:姓名.性别.年龄.籍贯.身份证号. 我们使用Word魔方的[提取多文档数据到Excel]功能来快速提取. ...

最新文章

  1. 统计分组的原则是要体现什么_统计学简答题
  2. tensorflow常见函数——clip_by_value、numpy.random.RandomState、argmax
  3. SSM中进行Junit单元测试时无法注入service
  4. 科大星云诗社动态20210120
  5. MySQL配置慢查询日志及使用说明
  6. SAP Marketing Cloud功能简述(一)Contacts和Profiles
  7. elasticsearch设置为windows系统服务
  8. 机器学习第六回——降维+异常检测
  9. 关于transformer是如何处理图像的
  10. 一张图学会python应用到excel-简单使用python做excel多文件批量搜索(带图形界面)(已更新)...
  11. ZOJ 3256 Tour in the Castle(插头DP-按行递推—矩阵)
  12. 照片尺寸对照单Microsoft Word 文档
  13. 查询淘宝京东商品历史价格的方法
  14. python线程池原理及使用
  15. 深度学习: ground truth 解释
  16. Python极简入门教程
  17. java执行sql列名无效_sqlserver列名无效调试及解决方法
  18. 经典面试题扔鸡蛋(Google面试题附带LeetCode例题)
  19. c++数据结构二叉树(二叉链表实现)基本操作实现
  20. pinyin4j NullPointerException: null空指针异常

热门文章

  1. 厉害了,网易伏羲三篇论文上榜 AI 顶会 ACL
  2. 全领域通吃,12个经典Python数据可视化库盘点
  3. 深耕智能制造和超高清视频领域,思谋科技获数千万美元融资
  4. 饿了么交易系统5年演化史
  5. 最全Python算法实现资源汇总!
  6. 杨超越第一,Python第二
  7. 先搞懂这八大基础概念,再谈机器学习入门!
  8. 人大附中高中生学Python获数据挖掘竞赛一等奖,将去旷视科技实习
  9. 公开课 | 让机器读懂你的意图——人体姿态估计入门
  10. 0.2 秒居然复制了一个 100G 文件?怎么做到的?