数据分析基于朴素贝叶斯的书籍评价信息分类
#-*-coding:utf-8-*-
import pandas as pd
import jieba
from sklearn.feature_extraction.text import CountVectorizer
data=pd.read_csv('./data.csv',encoding='ansi')
#确定特征值与目标
feature=data.loc[:,'内容 ']
target=data.loc[:,'评价']
#将特征值与目标值转化为数值类型
data.loc[data.loc[:,"评价"]=='好评','评价']=0
data.loc[data.loc[:,"评价"]=='差评','评价']=1
#将object转化为int类型
data.loc[:,'评价']=data.loc[:,'评价'].astype('int')
#转化特征值为数值型
content_list=[]
for tmp in data.loc[:,'内容 ']:res=jieba.cut(tmp,cut_all=False)#组装分词res_str=','.join(res)content_list.append(res_str)
#print(content_list)
#处理停用词
stop_words=[]
with open('./stopwords.txt',encoding='utf-8')as f:lines=f.readlines()for line in lines:line_obj=line.strip()#去除空格stop_words.append(line_obj)
#去除重复的停用词
stop_words=list(set(stop_words))
print(stop_words)
#进行统计词数
con_vet=CountVectorizer(stop_words=stop_words)
#统计分词
X=con_vet.fit_transform(content_list)
#获取分词结果
names=con_vet.get_feature_names()
print(names)
#print(X.toarray())
#将特征值与目标值组成完整的数据
import numpy as npnew_data=np.concatenate((X.toarray(),data.loc[:,'评价'].values.reshape((-1,1))),axis=1)
#数组拼接concatenate
print(new_data)
数据分析基于朴素贝叶斯的书籍评价信息分类相关推荐
- 基于朴素贝叶斯的书籍评价信息分类
1 中文文本数据集预处理 假设现在需要判断一封邮件是不是垃圾邮件,其步骤如下: (1) 数据集拆分成单词,中文分词技术; (2) 计算句子中总共多少单词,确定词向量大小: (3) 句子中的单词转换成向 ...
- 基于朴素贝叶斯的垃圾邮件分类器Java实现和讲解
朴素贝叶斯算法最典型的应用就是垃圾邮件的识别,在数据量非常大的情况下,识别的正确率可以达到接近100%,同时实现起来思路并不复杂.本文介绍的就是基于朴素贝叶斯算法的垃圾邮件识别的实现.如果之前对贝叶斯 ...
- 基于Python的情感极性判断(基于规则、基于逻辑回归、基于朴素贝叶斯)
资源下载地址:https://download.csdn.net/download/sheziqiong/85734418 资源下载地址:https://download.csdn.net/downl ...
- 基于朴素贝叶斯算法的脱贫攻坚小数据分类算法
通过对**县**乡**村扶贫工作数据分析,提出一种适用于精准扶贫的小数据分析方法.将机器学习.数据理论中的相关性分析和推理方法进行改进,得出基于朴素贝叶斯的小数据分析方法.本程序依据如下公式设计: 式 ...
- 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍 本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...
- 基于朴素贝叶斯的垃圾分类算法(Python实现)
有代码和数据集的 https://blog.csdn.net/weixin_33734785/article/details/91428991 附有git库代码的 https://www.cnblog ...
- 详解基于朴素贝叶斯的情感分析及 Python 实现
相对于「 基于词典的分析 」,「 基于机器学习 」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (共有三个级别,好.中.差) ╮(╯-╰ ...
- Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报 分类: 机器学习(19) 听说
Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报 分类: 机器学习(19) 听说朴 ...
- NLP之NBGBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)
NLP之NB&GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva).梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测) ...
最新文章
- 跟我学Springboot开发后端管理系统8:Matrxi-Web权限设计实现
- 27 个为什么,帮助你更好的理解Python
- 技术人员如何参与产品设计讨论:激活那一潭死水
- 关于Scalability的一些思考与疑问
- 1007 素数对猜想 (20 分)—PAT (Basic Level) Practice (中文)
- python 直方图每个bin中的值_python – 如何获取直方图bin中的数据
- vue中 点击事件的写法_Vue父子组件状态同步的最佳方式
- OpenCasCade开发环境搭建
- HTML+CSS+JavaScript实现打字小游戏
- 【layui】省市区的三级联动
- WIN7系统更新安装补丁“此更新不适用于你的计算机”解决办法
- K8S-Cluster部署
- javaweb实现不刷新网页更改页面内容
- python 将图片转换成像素画_python画像素图
- 将3D坐标转成2D坐标的方法
- 携手腾讯官方打造,微信(统信UOS版)首发
- 项目排期工具OmniPlan实用指南
- Python、C语言技能树测评
- Java Date Calendar类的使用 如何计算两个日期之间有多少天
- ios html5 拍照旋转,H5 解决ios拍照旋转90度
热门文章
- 【Java数据库】ORM思想:对象关系映射 使用Java容器存储多条记录
- 区块链系列教程之:比特币中的挖矿
- PowerDesigner生成mysql字段comment 注释
- Mysql常用30种SQL查询语句优化方法
- 1032 挖掘机技术哪家强 (20分)——15行代码AC
- 25行代码AC——习题5-7 打印队列(Printer Queue,UVa 12100)——解题报告
- Tomcat服务安装与部署(安装与优化)
- java如何接受字符_java中string怎么获取指定位置的字符
- 介绍一些平时用得到的服务/组件
- JAVA模拟肯德基点餐系统源码,肯德基辞职员工透露,用这几句暗语点餐,你拿的分量会比别人多...