当爬取完所需微博保存在一个csv文件中后,可用如下代码对其进行分词、保留所需词、去除停用词操作,并将分词结果放在新的文档中。

停用词和保留词网上都能搜到,我们也可以另外对停用词表进行编辑,也可以在保留词表中加入专业词汇。

目前很多我们常用的词汇jieba分词都无法识别,比如“微博热搜”,这里我也列举了一些我们可以加入保留词表中常用的单词:(我本人搜集的是科技相关微博,所以里面很多次都跟科技相关)

热搜

带节奏 
搞事情
社交平台
牛逼
大V
营销号
公众号
区块链
人工智能
云计算
深度学习
机器学习
雷达技术
全自动物流
自动驾驶
无人驾驶
互联网企业
语音识别
图像识别
智慧城市
智慧交通
制造行业
标配
用户需求
刷脸
核心业务
字节跳动
社交媒体

import jieba
import re
import csv# 创建停用词列表
def stopwordslist():stopwords = [line.strip() for line in open('E:/Chinese_stop_words.txt',encoding='UTF-8').readlines()]return stopwordsdef processing(text):"""数据清洗, 可以根据自己的需求进行重载"""text = re.sub("@.+?( |$)", "", text)           # 去除 @xxx (用户名)text = re.sub("【.+?】", "", text)             # 去除 【xx】 (里面的内容通常都不是用户自己写的)text = re.sub(".*?:", "", text)                #去除微博用户的名字text = re.sub("#.*#", "", text)                #去除话题引用text = re.sub("\n","",text)return text# 对句子进行中文分词
def seg_depart(sentence):jieba.load_userdict('E:/保留词.txt')sentence_depart = jieba.cut(sentence.strip())print(sentence_depart)stopwords = stopwordslist()        # 创建一个停用词列表outstr = ''        # 输出结果为outstrfor word in sentence_depart:          # 去停用词if word not in stopwords:if word != '\t':outstr += wordoutstr += " "return outstr# 给出文档路径
filename = "E:/data/input.csv"   #原文档路径
outputs = open("E:/data/output.csv", 'w', encoding='UTF-8')  #输出文档路径
with open(filename, 'r', encoding='utf-8-sig') as csvfile:reader = csv.reader(csvfile,delimiter=',',quotechar='"',doublequote=False)for line in reader:print(line[0])     #微博在文档的第一列line = processing(line[0])line_seg = seg_depart(line)outputs.write(line_seg + '\n')
outputs.close()
print("分词成功!!!")

用python对单一微博文档进行分词——jieba分词(加保留词和停用词)相关推荐

  1. python批量处理PDF文档,输出自定义关键词的出现次数

    目录 序言 函数模块介绍 对文件进行批量重命名 将PDF转化为txt 删除txt中的换行符 添加自定义词语 分词与词频统计 主函数 本地文件结构 全部代码 结果预览 序言 做这个的背景是研究生导师要批 ...

  2. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

  3. 用Python提取解析pdf文档中内容

    用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...

  4. 使用sphinx为python注释生成docAPI文档

    sphinx简介 sphinx是一种基于Python的文档工具,它可以令人轻松的撰写出清晰且优美的文档,由Georg Brandl在BSD许可证下开发. 新版的Python3文档就是由sphinx生成 ...

  5. 使用sphinx快速为你python注释生成API文档

    sphinx简介 sphinx是一种基于Python的文档工具,它可以令人轻松的撰写出清晰且优美的文档,由Georg Brandl在BSD许可证下开发.新版的Python3文档就是由sphinx生成的 ...

  6. python 爬取doc文档

    doc_href='https://resource.lzbank.com:18106/cportalFileServer/files//site/doc/pc/20201/12021/goods/2 ...

  7. python数据采集6-读取文档

    文章目录 python数据采集6-读取文档 文档编码 纯文本 CSV PDF 微软Word和.docx python数据采集6-读取文档 有种观点认为,互联网基本上就是那些符合新式 Web 2.0 潮 ...

  8. python用于cad_使用Python读取AutoCAD DXF文档

    作为<使用Python创建AutoCAD DXF文档>的姊妹篇,本文介绍用Python读取DXF ============================================= ...

  9. Python自然语言处理:文档相似度计算(gensim.models)

    目录 1. tf-idf(每个文档形成一个tfidf向量) 2. 仅频率(每个文档形成一个频率值向量) 3. 仅出现与否(每个文档形成一个出现与否的二元向量) 4. Word2vec模型(每个词形成一 ...

最新文章

  1. 通俗易懂:图卷积神经网络入门详解
  2. C++11 新增关键字decltype学习
  3. Gazebo添加模型并控制模型运动作为动态障碍物(Ubuntu16.04, Gazebo7.16),附录动态链接库和静态链接库区别
  4. .NET Core开发实战(第4课:Startup:掌握ASP.NET Core的启动过程)--学习笔记
  5. okhttp3 请求html页面,OkHttp3源码详解(二) 整体流程
  6. 大数据学习(3)- 分布式文件系统HDFS
  7. 设计模式学习笔记七:常用设计模式原则总结
  8. web前端网站推荐(后续继续补充)
  9. [转]git使用指南系列
  10. java spark yarn_java – 是否可以从代码中运行spark yarn cluster?
  11. 2022年定位系泊系统市场深度分析及发展研究预测报告
  12. 手机号格式校验(大陆,香港)
  13. 支付宝小程序获取手机号授权
  14. Python3中使用flask_sqlalchemy的问题
  15. 家庭局域网_局域网IP不止192.168 了解这些实用又安全
  16. 微信支付开发 服务商模式 签名错误
  17. 计算机软件对英语,计算机软件英语论文
  18. ssm 微信扫码支付
  19. cad怎么画坐标系箭头_怎样用CAD画一个路标箭头?,来学习吧
  20. 18 禁警告!这个工具教你涂鸦画丁丁,数据还开源了

热门文章

  1. 指定JDK版本运行Tomcat
  2. 使用 Dawn 构建 React 项目
  3. [转]Android编程之BitmapFactory.decodeResource加载图片缩小的原因及解决方法
  4. 浏览器显示html过程,浏览器显示页面的流程
  5. php 5.5 链接redis,PHP实例:PHP5.5安装PHPRedis扩展及连接测试方法
  6. 分段函数是不是一定初等函数_分段函数的微积分例题选讲
  7. android 自动打印出来,Android:签名打包后关闭Log打印
  8. python 调用js类_Python 调用 JS 常用的4种方式,带你学会如何解密
  9. java发送qq消息_Java点餐系统和点餐小程序新加微信消息推送功能
  10. CSS高级技巧【学习笔记】