情感分析(支持向量机,逻辑回归)
以某宝购物评论为例(表分为好评和差评)
好评
df = pd.read_excel("F:/文本大数据/购物评论.xlsx",sheet_name="正向",header=None)
df
标记为1
df['class']=1
df.head()
差评
df1 = pd.read_excel("F:/文本大数据/购物评论.xlsx",sheet_name="负向",header=None)
df1
标记为0
df1['class']=0
df1.head()
合并
df2 = df.append(df1,ignore_index=True)
df2
分词和预处理
import jieba
cuttxt = lambda x:" ".join(jieba.lcut(x))
df2["segment"]=df2[0].apply(cuttxt)
df2.head()
词袋模型
from sklearn.feature_extraction.text import CountVectorizer
# 词袋模型
countvec = CountVectorizer()
countvec = countvec.fit_transform(df2["segment"])
countvec
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(countvec,df2['class'],test_size=0)
x_train
from sklearn.svm import SVC
clf = SVC()# 支持向量机
clf.fit(x_train,y_train)
clf.score(x_train,y_train)
这里会花较长的时间,需要耐心等待!
如果想提高准确率可以通过改变参数:
逻辑回归模型
from sklearn.linear_model import LogisticRegression
logistic = LogisticRegression()
logistic.fit(x_train,y_train)
logistic.score(x_train,y_train)
模型评估
SVM
from sklearn.metrics import classification_report
print(classification_report(y_test,clf.predict(x_test)))
s = """输入你想预测的评论"""
s_seg = " ".join(jieba.lcut(s))
s_seg_vec = countvec.transform([s_seg])
result = clf.predict(s_seg_vec)
result
逻辑回归
from sklearn.metrics import classification_report
print(classification_report(y_test,logistic.predict(x_text)))
s = """输入你想预测的评论"""
s_seg = " ".join(jieba.lcut(s))
s_seg_vec = countvec.transform([s_seg])
result = logistic.predict(s_seg_vec)
result
情感分析(支持向量机,逻辑回归)相关推荐
- 机器学习之泰坦尼克号预测生还案例的分析(逻辑回归)
一 明确课题: 在泰坦尼克号之灾事件中,建立乘客获救情况(是/否)与其诸背景特征之间的量化模型,并且依据此模型来预测有某些背景的人在该海难中能否获救. 二 课题分析: 2.1 选择模型 一个二分类问题 ...
- 聚类分析、线性回归分析与分类分析(逻辑回归模型)
文章目录 前言 一.了解数据概况 二.单变量分析 三.可视化 四.建立模型 1.线性回归模型 ①导库.读取数据 ②了解数据概况且对后续建模进行数据处理 ③建立线性回归模型 2.逻辑回归模型 ①统计预测 ...
- 树模型与线性模型的区别 决策树分类和逻辑回归分类的区别 【总结】
树模型与线性模型的区别在于: (一)树模型 ①树模型产生可视化的分类规则,可以通过图表表达简单直观,逐个特征进行处理,更加接近人的决策方式 ②产生的模型可以抽取规则易于理解,即解释性比线性模型强. ...
- 天池龙珠训练营逻辑回归学习笔记
1.知识点 "线性回归"试图学得一个线性模型以尽可能准确地预测实值输出标记.线性回归模型一般可简写为 y = w T x + b y = w^{T}x + b y=wTx+b更一般 ...
- 逻辑回归 + GBDT模型融合实战!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,东北大学,Datawhale成员 一.GBDT+LR简介 ...
- 【机器学习基础】逻辑回归 + GBDT模型融合实战!
作者:吴忠强,东北大学,Datawhale成员 一.GBDT+LR简介 协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导 ...
- AI上推荐 之 逻辑回归模型与GBDT+LR(特征工程模型化的开端)
1. 前言 随着信息技术和互联网的发展, 我们已经步入了一个信息过载的时代,这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战: 信息消费者:如何从大量的信息中找到自己感兴趣的信息? 信息生产 ...
- DSML_分类算法笔记之逻辑回归模型
其他相关文章 DS&ML_关联分析笔记 DS&ML_分类算法笔记之支持自动机SVM模型 DS&ML_分类算法笔记之随机森林.梯度提升树.XGBoost模型 DS&ML_ ...
- 基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM、CNN)实现的中文情感分析,含数据集可直接运行
基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM.CNN)实现的中文情感分析,含数据集可直接运行 完整代码下载地址:中文情感分析 中文情感分析 本项目旨在通过一个中文情感 ...
最新文章
- VC++开发简单DLL并调用
- SpringMVC_3.请求映射与静态资源处理
- python统计图教程_Python利用matplotlib绘制约数个数统计图示例
- String类、StringBuffer类、StringBuilder类的区别
- IIS7的FTP出错: 451 No mapping for the unicode character exists in the target multi-byte code page
- Java中J.U.C扩展组件之Fork,join
- 南昌大学计算机接收调剂的条件,关于2018年河南昌大学学硕士研究生接收调剂程序及要求的须知详情...
- APC UPS 网络管理卡(型号apc ap9631)的配置
- 原创:华三杯2018山东省赛决赛样题试做
- stm32用什么软件编程烧写比较好呢?
- 接口收到CRC错包怎么处理
- Speed Test隐私政策
- 第15.9节 PyQt学习入门:使用Qt Designer进行GUI设计的步骤
- 新一代消息中间件—Apache Pulsar
- SXT分布式缓存技术公开课的观后感
- 科技人才开发效率的空间杜宾模型分析
- Centos Ubuntu 安装 gfortran
- Web 3D集成开发环境【nunuStudio中文版】
- 从零开始—仿牛客网讨论社区项目(一)
- 【分子结构】原子结构总结——2015年9月12日
热门文章
- Spring Boot——易班优课YOOC课群在线测试自动答题解决方案(二)答案储存
- ZOJ 1001 A + B Problem
- Monotonic Renumeration
- android设置gradle位置,android studio gradle 位置更改
- elasticsearch-7.3安装
- Java08-day08【API(概述、使用)、String-StringBuilder(概述、构造方法、特点、方法)、StringBuilder和String相互转化】
- canvas实现在线签名
- SpringMVC——Spring中的DispatcherServlet怎么工作?
- 【XAudio2】2.XAudio2 开始!
- Spring如何解决循环依赖问题