机器学习-情感分析小案例
对发帖情感进行分析。
字段说明: Announce_ID字段代表用户ID,User_Name字段代表用户名,topic字段代表发帖主题,body字段代表发帖内容,post_type字段代表发帖话题是否与工作相关,sentiment字段表明发帖情感色彩,IP字段代表用户IP地址。
关于classify.xls文件 提取码:fkwq
stopwords.txt 文件 提取码:05z1
相关代码
import pandas as pd
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn import model_selection, metrics
from sklearn.naive_bayes import BernoulliNB
# 读入classify文件,Sheetname设为classify
df = pd.read_excel('classify.xls', sheet_name='classify')
# print(df)
# 对post_type特征做频数统计
# print(df['post_type'].value_counts())
# 删去User_Name、post_type、IP特征
df.drop(columns=['User_Name', 'post_type', 'IP'], inplace=True)
# print(df)
# 对Body特征进行中文分词处理
df['Body'] = df['Body'].map(lambda x:jieba.lcut(x))
# print(df['Body'].head())
# 读取停用词表,剔除停用词
s = ''
with open('stopwords.txt', 'r', encoding='utf8') as r:for i in r.readlines():s += i.strip()df['Body'] = df['Body'].map(lambda x:[i for i in x if(i not in s) and (len(i) > 1)])
# print(df['Body'].head())
# 将剔除停用词后的Body特征转换为矩阵向量
list1 = df['Body'].map(lambda line:' '.join(line))
cv = CountVectorizer()
w = cv.fit_transform(list1)
# 降维处理得到特征X
svd = TruncatedSVD(50)
X = svd.fit_transform(w)
# 切片sentiment特征作为目标标签Y
Y = df['sentiment']
# 按照8:2划分数据集
train_x, test_x, train_y, test_y = model_selection.train_test_split(X, Y, test_size=0.2, random_state=0)
# 建立朴素贝叶斯分类模型
model = BernoulliNB()
model.fit(train_x, train_y)
# 进行模型训练和预测
h = model.predict(test_x)
# 打印混淆矩阵和分类报告
print('classification_report:\n', metrics.classification_report(test_y, h))
print('confusion_matrix:\n', metrics.confusion_matrix(test_y, h))
机器学习-情感分析小案例相关推荐
- 机器学习-情感分析-入门实战案例
前言 情感分析属于自然语言处理的一部分,其任务是,给定一个文本,判断这个文本所表达的情感是正面的,中立的,还是负面的.这被广泛用于: 1. 商品好评度自动检测. 2. 微博推特等平台用户发言是开心赞美 ...
- AI实战!开源一个机器学习/情感分析实战项目(附源码/教程)|湾区人工智能...
分享一个在公司做的机器学习文本分类项目的demo,该分类项目是一个通用的文本分类项目,这里的数据集我酒店用户评价数据,分类模型为二分类,正面评价和负面评价,这里所说的通用,就是你可以根据你自己的数据, ...
- 电影评论情感分析-直播案例
情感分析是机器学习中的一个有挑战性的任务.数据集包含50,000个IMDB电影评论,训练集的25,000个评论标注了二元的情感倾向,IMDB评级<5的情绪评分为0,评级> = 7的情绪评分 ...
- 机器学习——情感分析
<python machine learning> chapter 8 Applying Machine Learning to Sentiment Analysis git源码:http ...
- 朴素贝叶斯应用案例 —— 商品评论情感分析
商品评论情感分析 1 案例介绍 2 流程实现 2.1 获取数据集 2.2 数据基本处理 2.3 模型训练 2.4 模型评估 1 案例介绍 本案例提供了一个13条商品评价的小型数据集,通过对商品评价内容 ...
- 使用ML.NET实现情感分析[新手篇]
在发出<.NET Core玩转机器学习>和<使用ML.NET预测纽约出租车费>两文后,相信读者朋友们即使在不明就里的情况下,也能按照内容顺利跑完代码运行出结果,对使用.NET ...
- 深入解读华为云细粒度文本情感分析及其应用
摘要:本篇文章主要介绍了情感分析的一些基本任务,包括文本.语音.图像还有生成.识别,着重讲述华为云在细粒度情感分析方面两个工作. 导读:先简单介绍一下文本情感分析的一些基本概念,然后介绍一下华为云在细 ...
- 基于电商产品评论数据情感分析
#!/usr/bin/env python # coding: utf-8# # -- 基于电商产品评论数据情感分析 --# ### 1.案例简介 # # 1.利用文本挖掘技术,对碎片化.非结构化的电 ...
- NLP学习(十)-情感分析技术及案例实现-Python3实现
文章目录 1 情感分析简述 2 情感分类 2.1 基于语义的情感词典方法 2.2 基于机器学习的情感分类方法 3 情感检索 4 情感抽取 5 情感分析实战 5.1 词向量模型 5.2 Word2Vec ...
最新文章
- 用Python写出Gameboy模拟器,还能训练AI模型:丹麦小哥的大学项目火了
- android 中的PopupWindow
- C++ with STL(一)
- 自学python爬虫要多久-初学Python爬虫要学多久?原来这么快
- MySQL调优(二):数据类型和schema优化,MySQL8.0取消查询缓存的原因
- 量子计算机到底多强大?从量子运算看清楚它们的能力
- 膜拜大丹(结论+二元环)
- 哲学家就餐问题python_Python实现哲学家就餐问题实例代码
- 论文浅尝 | 利用指针生成网络的知识图谱自然语言生成
- mysql 存储引擎版本_mysql不同版本和存储引擎选型的验证
- 如何听节拍器_如何用节拍器卡节拍?节拍器的使用方法!
- 字符串,字典,元祖,列表
- sever企业版密钥 sql_SQL Server 2012 开发版/企业版/标准版/Web版序列号密钥
- 还来得及,快来拯救网易相册上的老照片吧!
- 腾讯云认证考试考点列表有哪些?
- 员工转正申请书_新员工转正申请书
- IDEA中使用maven 创建 的ssm项目使用sprimg mvc国际化功能报错No message found under code ‘welcome‘ for locale ‘en_US'
- 深圳mba学费一览表
- 王选: 从Dijkstra谈帅才的洞察力
- js 移动端网页特效+移动端轮播图案例+移动端常用开发插件的使用
热门文章
- enumerate()
- 【Java学习笔记】38.Java 发送邮件
- LocalDateTime计算两个时间的间隔
- save-ps-to-svg1.0百度网盘资源
- asp.net58同城简单登陆
- 头条 上传图片大小_如何解决小说封面上传失败(不符合网站标准、缺少信息)的问题?...
- mac terminal终端打开指定文件夹 当前文件夹打开terminal
- linux程序后台运行详解
- 解决qrcode生成的二维码微信长按不识别问题
- 图片怎么压缩到100k?照片怎么压缩到指定大小