文本分析分词并去停用词返回嵌套列表

此代码块用于分词并去停用词（从csv文件转成了txt分词结果），其实没保持格式一致是有点别扭，但是时间紧迫，能用就行，就不管了。
毕业论文.csv文件示例（一个用excel打开的csv文件）：

读取文件并进行分词去停用词操作

#将csv文件读到了data_df对象中（dataframe类型）
data_df = pd.read_csv('毕业论文.csv', sep=',', header=None, encoding='utf8')
data_df.columns = ['序号', '文章']#读取停用词列表
stopword_list = [k.strip() for k in open('stopwords.txt', encoding='utf8').readlines() if k.strip() != '']#对样本循环遍历，使用jieba库的cut方法获得分词列表，判断此分词是否为停顿词，如果不是停顿词赋值给变量cutWords
cutWords_list = []
for article in data_df['文章']:cutWords = [k for k in jieba.cut(article) if k not in stopword_list]cutWords_list.append(cutWords)

对此cutWords_list示例如下：

>>>print(cutWords_list[0:5])
[['Outline'], ['交易', '概述', "'"], ['没有', '单位', "'"], ['公司', '控股', '股东', '新疆', '宏大', '房地产', '开发', '有限公司', '已于', '2003', '年', '7', '月', '25', '日', '广州', '博融', '投资', '有限公司', '签署', '股份', '转让', '协议', ',', '转让', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '转让', '价款', '人民币', '8000', '万元', '股份', '转让', '过户', '手续', '办理', '完成', ',', '新疆', '宏大', '房地产', '开发', '有限公司', '不再', '持有', '公司', '法人股', ',', '广州', '博融', '投资', '有限公司', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '第一', '股东'], ['交易', '概述', '公司', '控股', '子公司', '深圳市', '赛格', '达', '声', '房地产', '开发', '有限公司', '以下', '简称', '"', '达', '声', '地产', '"', '已于', '2003', '年', '12', '月', '31', '日', '深圳市', '博尔', '实业', '有限公司', '以下', '简称', '"', '博尔', '实业', '"', '签订', '股权', '转让', '协议书', '约定', '持有', '深圳市', '亚洋', '机电', '实业', '有限公司', '以下', '简称', '"', '亚洋', '机电', '"', '60', '％', '股权', '人民币', '2028', '万元', '价格', '转让', '博尔', '实业', '交易', '未', '构成', '关联', '交易']]

保存结果到本地

由于分词过程较为耗时，将分词结果保存为本地文件cutWords_list.txt，其后就可以直接读取本地文件

with open('cutWords_list.txt', 'w', encoding='utf8') as file:for cutWords in cutWords_list:file.write(' '.join(cutWords) + '\n')

从本地读取结果

with open('cutWords_list.txt',encoding="utf-8") as file:cutWords_list = [k.split() for k in file.readlines()]

输出结果文件示例：

附注：这个代码是老师上课给的，不是自己写的（有时间可以分析一下哪里写的好），不知道代码源头是谁，在此记录。

下文是整体过程：
写在前面：文档指的是一条记录，占一行。
下文是对情感法进行简单情感分析的过程博客，并不涉及对词语的加权、对程度副词加权和对否定词取反的操作，仅仅对词典中的词语进行计数。
输入：待计数文档，已有的六个情感词典。
输出：对六个词典中出现的词语进行计数得到的六列数据。
顺序见下：

分词并去停用词返回嵌套列表并保存到本地
https://blog.csdn.net/weixin_43919570/article/details/104316316
从母词及其扩充的情感词典txt文件读取到列表list中
https://blog.csdn.net/weixin_43919570/article/details/104311270
判断文档中的词语有多少在情感词典中并计数
https://blog.csdn.net/weixin_43919570/article/details/104312714
批量输出情感词计数结果到列表中
https://blog.csdn.net/weixin_43919570/article/details/104315090
其实4是对3加了一个循环得到的，应该将3和4看成一体，作用是输出计数列表。
词典法情感分析数词操作并输出结果到csv文件中
https://blog.csdn.net/weixin_43919570/article/details/104316043
第5篇文章是对以上四篇文章的汇总使用。