文章目录

  • 文本分析分词并去停用词返回嵌套列表
    • 读取文件并进行分词去停用词操作
    • 保存结果到本地
    • 从本地读取结果

文本分析分词并去停用词返回嵌套列表

此代码块用于分词并去停用词(从csv文件转成了txt分词结果),其实没保持格式一致是有点别扭,但是时间紧迫,能用就行,就不管了。
毕业论文.csv文件示例(一个用excel打开的csv文件):

读取文件并进行分词去停用词操作

#将csv文件读到了data_df对象中(dataframe类型)
data_df = pd.read_csv('毕业论文.csv', sep=',', header=None, encoding='utf8')
data_df.columns = ['序号', '文章']#读取停用词列表
stopword_list = [k.strip() for k in open('stopwords.txt', encoding='utf8').readlines() if k.strip() != '']#对样本循环遍历,使用jieba库的cut方法获得分词列表,判断此分词是否为停顿词,如果不是停顿词赋值给变量cutWords
cutWords_list = []
for article in data_df['文章']:cutWords = [k for k in jieba.cut(article) if k not in stopword_list]cutWords_list.append(cutWords)

对此cutWords_list示例如下:

>>>print(cutWords_list[0:5])
[['Outline'], ['交易', '概述', "'"], ['没有', '单位', "'"], ['公司', '控股', '股东', '新疆', '宏大', '房地产', '开发', '有限公司', '已于', '2003', '年', '7', '月', '25', '日', '广州', '博融', '投资', '有限公司', '签署', '股份', '转让', '协议', ',', '转让', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '转让', '价款', '人民币', '8000', '万元', '股份', '转让', '过户', '手续', '办理', '完成', ',', '新疆', '宏大', '房地产', '开发', '有限公司', '不再', '持有', '公司', '法人股', ',', '广州', '博融', '投资', '有限公司', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '第一', '股东'], ['交易', '概述', '公司', '控股', '子公司', '深圳市', '赛格', '达', '声', '房地产', '开发', '有限公司', '以下', '简称', '"', '达', '声', '地产', '"', '已于', '2003', '年', '12', '月', '31', '日', '深圳市', '博尔', '实业', '有限公司', '以下', '简称', '"', '博尔', '实业', '"', '签订', '股权', '转让', '协议书', '约定', '持有', '深圳市', '亚洋', '机电', '实业', '有限公司', '以下', '简称', '"', '亚洋', '机电', '"', '60', '%', '股权', '人民币', '2028', '万元', '价格', '转让', '博尔', '实业', '交易', '未', '构成', '关联', '交易']]

保存结果到本地

由于分词过程较为耗时,将分词结果保存为本地文件cutWords_list.txt,其后就可以直接读取本地文件

with open('cutWords_list.txt', 'w', encoding='utf8') as file:for cutWords in cutWords_list:file.write(' '.join(cutWords) + '\n')

从本地读取结果

with open('cutWords_list.txt',encoding="utf-8") as file:cutWords_list = [k.split() for k in file.readlines()]

输出结果文件示例:

附注:这个代码是老师上课给的,不是自己写的(有时间可以分析一下哪里写的好),不知道代码源头是谁,在此记录。

下文是整体过程:
写在前面:文档指的是一条记录,占一行。
下文是对情感法进行简单情感分析的过程博客,并不涉及对词语的加权、对程度副词加权和对否定词取反的操作,仅仅对词典中的词语进行计数。
输入:待计数文档,已有的六个情感词典。
输出:对六个词典中出现的词语进行计数得到的六列数据。
顺序见下:

分词并去停用词返回嵌套列表并保存到本地
https://blog.csdn.net/weixin_43919570/article/details/104316316
从母词及其扩充的情感词典txt文件读取到列表list中
https://blog.csdn.net/weixin_43919570/article/details/104311270
判断文档中的词语有多少在情感词典中并计数
https://blog.csdn.net/weixin_43919570/article/details/104312714
批量输出情感词计数结果到列表中
https://blog.csdn.net/weixin_43919570/article/details/104315090
其实4是对3加了一个循环得到的,应该将3和4看成一体,作用是输出计数列表。
词典法情感分析数词操作并输出结果到csv文件中
https://blog.csdn.net/weixin_43919570/article/details/104316043
第5篇文章是对以上四篇文章的汇总使用。

文本分析——分词并去停用词返回嵌套列表并保存到本地相关推荐

  1. (3.2)将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...

    酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类 思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...

  2. IKAnalyzer进行中文分词和去停用词

    最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...

  3. 分词并去停用词自定义函数:seg_word(sentence)

    分词并去停用词自定义函数:seg_word(sentence). import jieba def seg_word(sentence):"""使用jieba对文档分词& ...

  4. Gensim:word2vec(jieba分词,去停用词)

    参考https://www.cnblogs.com/pinard/p/7278324.html 计算词向量 gensim计算词向量需要执行三个步骤 model=gensim.models.Word2V ...

  5. Jieba分词并去停用词

    目录 一.Jieba简介 二.Jieba使用规则 2.1 Jieba分词的四种模式 2.2 Jieba库的一般函数

  6. 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

    利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...

  7. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

  8. 中文分词与去除停用词

    jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词. 全模式:把文本中所有可能的词语都扫描出来,有冗余. 搜索引擎模式:在精确模式基础上,对长词再次切分. jieba库的解析 ji ...

  9. 文本情感分析:去停用词

    原文地址 分类目录--情感识别 随便构造了一份测试数据如下,内容是gensim下的词向量生成模型word2vec的属性说明 一种方式,通过正则表达式,这里以去标点符号为例,在分词之前进行操作 impo ...

最新文章

  1. 零基础学习爬虫并实战
  2. 全志A33-gpio驱动程序
  3. Building a RESTful Web Service
  4. git 报错:was cached in the local repository, resolution will not be reattempted until the upda
  5. 我在Freebsd下安装帝国CMS系统整合Discuz的服务器环境配置
  6. STM32F429HAL库时钟系统学习笔记
  7. 计算机监理培训计划,监理人员培训计划书.doc
  8. 传感器极性NPN和PNP区别!!!
  9. 饭店点餐系统之系统网络结构
  10. SLF4J: Class path contains multiple SLF4J bindings(log4j与logback冲突了)
  11. 比特大陆之争终落幕,吴忌寒为爱和平退出?
  12. 跳一跳改分php源码,小游戏“跳一跳”居然可改分,微信小程序现漏洞
  13. win32游戏开发(2) --连连看游戏制作(vc++版)
  14. 分享一个600块钱的Python私活单,金融Excel数据清洗
  15. greenplum-执行SQL创建SliceGang 学习计划。
  16. php学到最后,【A0365】[PHP视频教程]新开班布尔教育最后一期PHP 入门到实战视频教程 百度云 网盘...
  17. linux点用户输密码时就调回登录框,Linux系统登陆输入密码正确 闪回登陆界面
  18. linux快速入门 快捷高效学习方法
  19. 京东css3动画全屏海报_CSS3+HTML5+JS 实现一个块的收缩与展开动画效果
  20. red学习 --- rebol语言

热门文章

  1. 学生日程管理app10个测试用例
  2. 我要转行Linux驱动开发了,驱动开发的工作是什么样的情况,希望大神给点建议,也希望大家给我一点鼓励
  3. 相机坐标系的正向投影和反向投影
  4. intel服务器主板维修,intel服务器主板
  5. Finetune时利用自己的训练数据或者测试数据
  6. 将英语四级单词存储到数据库中
  7. python批量下载静态页面_爬虫实战之,爬取壁纸,批量下载
  8. PLC(FX3U):一些经验
  9. 基于M5310-A的NB-IoT水表节电方案分享
  10. python 控制有线网卡_用python写一些网络操作