实战笔记：利用pandas提升分词后过滤停用词的效率

前言：大家好，这里是Seon塞翁。最近工作中开发了一个需要对大批量文本进行分词及统计词频的工具，主要是在 jieba 分词、过滤停用词两个环节耗时。分词部分可以考虑采用 jieba-fast 库提升速度，而过滤环节的效率低下问题一直没找到好方法解决，今天偶然发现了pandas可以帮助实现！果然还是太无知了哈哈哈…

1、常规方法

那么开始吧！首先完成分词部分，得到一个储存了所有单词的超大列表；

import pandas as pd
import jiebastopwords = [line.strip() for line in open('chineseStopWords.txt', 'r', encoding='utf-8').readlines()]
df = pd.read_excel("/home/kesci/待分词文本.xlsx")
jieba_list = (jieba.cut(x) for x in list(df['内容']))  # 对每一行进行分词
cut_words = [w for words in jieba_list for w in words] # 所有行的分词汇总列表

循环判断分词是否在停用词列表中，乍一看这列表推导式已经很简洁了，在不使用多进程的情况下似乎没法更快了。

cut_word_list = [w for w in cut_words if w not in stopwords]

但实际上这竟然要耗费超过一分钟！这用户体验也太差了吧…

这是因为原始分词结果 cut_word_list 是超过 200 万个分词的列表，而停用词列表长度也超过 1000 个，如此一来需要经历的循环大大降低了过滤效率。

2、利用 pandas 中的 isin

利用 pandas 的内置方法 isin 可以对一列数据进行过滤，与 apply(lamba x: x if x not in stopwords) 或 for 循环这样的逐行逐个操作不同，使用 isin 进行的是向量化操作。

cut_df = pd.DataFrame({'cut_words':cut_words})
cut_df = cut_df[~cut_df.cut_words.isin(stopwords)]  # 用isin的反函数过滤词
cut_word_list = cut_df['cut_words'].to_list()

可见执行速度是常规方法的100倍以上，如此一来便大幅提升了过滤效率。

实战笔记：利用pandas提升分词后过滤停用词的效率相关推荐

中文分词后去除停用词
中文分词后去除停用词当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的.所以在分词 ...
中文分词与去除停用词
jieba分词的三种模式精确模式:把文本精确的切分开,不存在冗余单词. 全模式:把文本中所有可能的词语都扫描出来,有冗余. 搜索引擎模式:在精确模式基础上,对长词再次切分. jieba库的解析 ji ...
中文文本处理总结（读取文本、文本预处理、分词、去除停用词）
中文文本处理总结(读取文本.文本预处理.分词.去除停用词) 针对前面学习的 Python读取文本内容.中文文本预处理.利用jieba对中文进行分词.中文分词后去除停用词.调整jieba分词结果,我们 ...
python分组求和_Python学习笔记之pandas索引列、过滤、分组、求和功能示例
本文实例讲述了Python学习笔记之pandas索引列.过滤.分组.求和功能.分享给大家供大家参考,具体如下: 前面我们已经把519961(基金编码)这种基金的历史净值明细表html内容抓取到了本地, ...
（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...
酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...
NLP深入学习——过滤停用词（Filtering stop words）
文章目录返回主目录过滤停用词(Filtering stop words) Stemming操作返回主目录这是一个系列的文章,点击返回综合目录页过滤停用词(Filtering stop wor ...
java 对英文句子进行分词、去除停用词、提取词干
下面词干提取算法用到的jar包 lucene-analyzers-smartcn-7.6.0.jar (包含中英词干提取) 百度网盘链接:https://pan.baidu.com/s/15D ...
实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量
一:jieba分词和pkuseg分词原代码文件链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...
分词并去停用词自定义函数：seg_word(sentence)
分词并去停用词自定义函数:seg_word(sentence). import jieba def seg_word(sentence):"""使用jieba对文档分词& ...

实战笔记：利用pandas提升分词后过滤停用词的效率

1、常规方法

2、利用 pandas 中的 isin

实战笔记：利用pandas提升分词后过滤停用词的效率相关推荐

最新文章

热门文章