用python对单一微博文档进行分词——jieba分词（加保留词和停用词）

当爬取完所需微博保存在一个csv文件中后，可用如下代码对其进行分词、保留所需词、去除停用词操作，并将分词结果放在新的文档中。

停用词和保留词网上都能搜到，我们也可以另外对停用词表进行编辑，也可以在保留词表中加入专业词汇。

目前很多我们常用的词汇jieba分词都无法识别，比如“微博热搜”，这里我也列举了一些我们可以加入保留词表中常用的单词：（我本人搜集的是科技相关微博，所以里面很多次都跟科技相关）

热搜

带节奏
搞事情
社交平台
牛逼
大V
营销号
公众号
区块链
人工智能
云计算
深度学习
机器学习
雷达技术
全自动物流
自动驾驶
无人驾驶
互联网企业
语音识别
图像识别
智慧城市
智慧交通
制造行业
标配
用户需求
刷脸
核心业务
字节跳动
社交媒体

import jieba
import re
import csv# 创建停用词列表
def stopwordslist():stopwords = [line.strip() for line in open('E:/Chinese_stop_words.txt',encoding='UTF-8').readlines()]return stopwordsdef processing(text):"""数据清洗, 可以根据自己的需求进行重载"""text = re.sub("@.+?( |$)", "", text)           # 去除 @xxx (用户名)text = re.sub("【.+?】", "", text)             # 去除 【xx】 (里面的内容通常都不是用户自己写的)text = re.sub(".*?:", "", text)                #去除微博用户的名字text = re.sub("#.*#", "", text)                #去除话题引用text = re.sub("\n","",text)return text# 对句子进行中文分词
def seg_depart(sentence):jieba.load_userdict('E:/保留词.txt')sentence_depart = jieba.cut(sentence.strip())print(sentence_depart)stopwords = stopwordslist()        # 创建一个停用词列表outstr = ''        # 输出结果为outstrfor word in sentence_depart:          # 去停用词if word not in stopwords:if word != '\t':outstr += wordoutstr += " "return outstr# 给出文档路径
filename = "E:/data/input.csv"   #原文档路径
outputs = open("E:/data/output.csv", 'w', encoding='UTF-8')  #输出文档路径
with open(filename, 'r', encoding='utf-8-sig') as csvfile:reader = csv.reader(csvfile,delimiter=',',quotechar='"',doublequote=False)for line in reader:print(line[0])     #微博在文档的第一列line = processing(line[0])line_seg = seg_depart(line)outputs.write(line_seg + '\n')
outputs.close()
print("分词成功！！！")

用python对单一微博文档进行分词——jieba分词（加保留词和停用词）相关推荐

python批量处理PDF文档，输出自定义关键词的出现次数
目录序言函数模块介绍对文件进行批量重命名将PDF转化为txt 删除txt中的换行符添加自定义词语分词与词频统计主函数本地文件结构全部代码结果预览序言做这个的背景是研究生导师要批 ...
python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...
目标最近实验室里成立了一个计算机兴趣小组倡议大家多把自己解决问题的经验记录并分享就像在CSDN写博客一样虽然刚刚起步但考虑到后面此类经验记录的资料会越来越多所以一开始就要做好模板设计(如下 ...
用Python提取解析pdf文档中内容
用Python提取解析pdf文档中内容文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...
使用sphinx为python注释生成docAPI文档
sphinx简介 sphinx是一种基于Python的文档工具,它可以令人轻松的撰写出清晰且优美的文档,由Georg Brandl在BSD许可证下开发. 新版的Python3文档就是由sphinx生成 ...
使用sphinx快速为你python注释生成API文档
sphinx简介 sphinx是一种基于Python的文档工具,它可以令人轻松的撰写出清晰且优美的文档,由Georg Brandl在BSD许可证下开发.新版的Python3文档就是由sphinx生成的 ...
python 爬取doc文档
doc_href='https://resource.lzbank.com:18106/cportalFileServer/files//site/doc/pc/20201/12021/goods/2 ...
python数据采集6-读取文档
文章目录 python数据采集6-读取文档文档编码纯文本 CSV PDF 微软Word和.docx python数据采集6-读取文档有种观点认为,互联网基本上就是那些符合新式 Web 2.0 潮 ...
python用于cad_使用Python读取AutoCAD DXF文档
作为<使用Python创建AutoCAD DXF文档>的姊妹篇,本文介绍用Python读取DXF ============================================= ...
Python自然语言处理：文档相似度计算（gensim.models）
目录 1. tf-idf(每个文档形成一个tfidf向量) 2. 仅频率(每个文档形成一个频率值向量) 3. 仅出现与否(每个文档形成一个出现与否的二元向量) 4. Word2vec模型(每个词形成一 ...

用python对单一微博文档进行分词——jieba分词（加保留词和停用词）

用python对单一微博文档进行分词——jieba分词（加保留词和停用词）相关推荐

最新文章

热门文章