文本情感分析:去停用词
原文地址
分类目录——情感识别
随便构造了一份测试数据如下,内容是gensim下的词向量生成模型word2vec的属性说明
- 一种方式,通过正则表达式,这里以去标点符号为例,在分词之前进行操作
import re# 通过正则表达式筛除string中的标点符号
def clearn_str(string):# 筛除掉中文标点string = re.sub(r'["#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。 ]', '', string)# 筛除掉英文标点string = re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~]', '', string)return string# 读取一份测试文件
with open('data.txt', encoding='utf8') as f:sentenceslist = f.read().splitlines() # 每行作为一个元素封装成列表# ['1.sentences:可以是一个List,对于大语料集,建议', '2.sg: 用于设置训练算法,默认为0,对应CBOW算法', '3.size:是指输出的词的向量维数,默认为100。']
preprocessed = [clearn_str(x) for x in sentenceslist]
# ['1sentences可以是一个List对于大语料集建议', '2sg用于设置训练算法默认为0对应CBOW算法', '3size是指输出的词的向量维数默认为100']
一种方式,分词之后去掉词列表中的停用词
对于一份停用词列表,在nltk模块包下封装了英文的停用词表,我从网上找了一份中文的,大概是这样的
链接:https://pan.baidu.com/s/1shrhd-Kg9U1n9WXSOFdwow
提取码:q3me
from nltk.corpus import stopwords
import jieba# 从nltk中获取英文停用词
stopwords1 = stopwords.words('english')
# ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', ...]#
with open('../data/stopwords.txt', encoding='utf8') as f:stopwords2 = f.read().splitlines()# 读取一份测试文件
with open('data.txt', encoding='utf8') as f:sentenceslist = f.read().splitlines() # 每行作为一个元素封装成列表# ['1.sentences:可以是一个List,对于大语料集,建议', '2.sg: 用于设置训练算法,默认为0,对应CBOW算法', '3.size:是指输出的词的向量维数,默认为100。']res = [list(jieba.cut(sent)) for sent in sentenceslist] # 用jieba分词
# [['1', '.', 'sentences', ':', '可以', '是', '一个', 'List', ',', '对于', '大', '语料', '集', ',', '建议'], ['2', '.', 'sg', ':', ' ', '用于', '设置', '训练', '算法', ',', '默认', '为', '0', ',', '对应', 'CBOW', '算法'], ['3', '.', 'size', ':', '是', '指', '输出', '的', '词', '的', '向量', '维数', ',', '默认', '为', '100', '。']]
# 去停用词
for line in res:for cell in line[:]: # line[:],深copy,避免因为循环删除跳过对某些想的筛选if cell in stopwords2:line.remove(cell)
# [['sentences', 'List', '语料', '集', '建议'], ['sg', ' ', '用于', '设置', '训练', '算法', '默认', 'CBOW', '算法'], ['size', '指', '输出', '词', '向量', '维数', '默认', '100']]
文本情感分析:去停用词相关推荐
- 基于LSTM三分类的文本情感分析,采用LSTM模型,训练一个能够识别文本postive, neutral, negative三种
基于LSTM三分类的文本情感分析,采用LSTM模型,训练一个能够识别文本postive, neutral, negative三种 ,含数据集可直接运行 完整代码下载地址:基于LSTM三分类的文本情感分 ...
- 文本分析——分词并去停用词返回嵌套列表并保存到本地
文章目录 文本分析分词并去停用词返回嵌套列表 读取文件并进行分词去停用词操作 保存结果到本地 从本地读取结果 文本分析分词并去停用词返回嵌套列表 此代码块用于分词并去停用词(从csv文件转成了txt分 ...
- (3.2)将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...
酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类 思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...
- 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算
欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...
- 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注
利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...
- 【Python】文本情感分析及绘制词云
码字不易,喜欢请点赞!!! 这篇文章主要分享了使用Python来对文本数据进行情感分析以及绘制词云. 主要步骤包括: 1.文本预处理 2.文本分词 3.去除停用词(这里设置为单个词和一些常见的停用词) ...
- Stanford CS230深度学习(八)词嵌入与文本情感分析
在CS230的lecture 8中主要吴恩达老师如何阅读文献,以及一些职业建议,都是一些比较实用的建议和指导. 关于阅读文献,吴恩达老师提倡先列出一个这个领域的文献列表,可能只包含几篇文章,然后精读其 ...
- python 文本分析库_Python有趣|中文文本情感分析
前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...
- python情感分析模型_Python有趣|中文文本情感分析
前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...
最新文章
- POJ3272 Cow Traffic
- 【C++】静态成员 static
- SpringCloud Demo
- 程序员面试什么最重要?
- Dockerfile和Dockerfile-dev
- 分享一个VisualStudio2010插件——Productivity Power Tools
- object-c 运行时显示view没有设置outlet的错误
- Java方法的可变参数
- dataframe根据时间戳timestamp切分成多个dataframe
- notebook pip install 只有星号_每日一点,带你入门Python-星号拆包
- 8天玩转并行开发——第六天 异步编程模型
- linux命令之tee,linux tee命令
- 频谱仪使用方法图解_安全继电器工作原理、接线图、使用方法图解
- ios ffmpeg h264 decode
- LABVIEW详细介绍:LABVIEW是什么软件?都可以干什么?
- ERP系统-销售子系统-销售发货通知单
- webm视频怎么转换成mp4?
- 实用计算机理论基础知识试题及答案,计算机基础知识试题库及答案(5)
- LINQ的Order By (Descending) 操作
- 四大高质量且实用的chrome翻译插件推荐
热门文章
- 计算机课程线下,线上线下在计算机应用课程中的应用
- FlexNetLicensing简介(由FlexNetPublisher和FlexNetEmbedded构成)
- osgEarth版本发行说明
- 网站配色,CSS主色调配色方案
- 人工智能、数据挖掘、机器学习和深度学习之间,主要有什么关系?
- linux中dare命令,dare
- What is Unified Extensible Firmware Interface (UEFI)?
- 图灵学院VIP课程第五期学习笔记
- 通过PHP 获取身份证相关信息 获取生肖,获取星座,获取年龄,获取性别
- Git Brash在Windows下乱码问题