#-*-coding:utf-8-*-
import  pandas  as  pd
import jieba
from sklearn.feature_extraction.text import CountVectorizer
data=pd.read_csv('./data.csv',encoding='ansi')
#确定特征值与目标
feature=data.loc[:,'内容 ']
target=data.loc[:,'评价']
#将特征值与目标值转化为数值类型
data.loc[data.loc[:,"评价"]=='好评','评价']=0
data.loc[data.loc[:,"评价"]=='差评','评价']=1
#将object转化为int类型
data.loc[:,'评价']=data.loc[:,'评价'].astype('int')
#转化特征值为数值型
content_list=[]
for  tmp  in data.loc[:,'内容 ']:res=jieba.cut(tmp,cut_all=False)#组装分词res_str=','.join(res)content_list.append(res_str)
#print(content_list)
#处理停用词
stop_words=[]
with  open('./stopwords.txt',encoding='utf-8')as  f:lines=f.readlines()for  line in lines:line_obj=line.strip()#去除空格stop_words.append(line_obj)
#去除重复的停用词
stop_words=list(set(stop_words))
print(stop_words)
#进行统计词数
con_vet=CountVectorizer(stop_words=stop_words)
#统计分词
X=con_vet.fit_transform(content_list)
#获取分词结果
names=con_vet.get_feature_names()
print(names)
#print(X.toarray())
#将特征值与目标值组成完整的数据
import  numpy  as  npnew_data=np.concatenate((X.toarray(),data.loc[:,'评价'].values.reshape((-1,1))),axis=1)
#数组拼接concatenate
print(new_data)

数据分析基于朴素贝叶斯的书籍评价信息分类相关推荐

  1. 基于朴素贝叶斯的书籍评价信息分类

    1 中文文本数据集预处理 假设现在需要判断一封邮件是不是垃圾邮件,其步骤如下: (1) 数据集拆分成单词,中文分词技术; (2) 计算句子中总共多少单词,确定词向量大小: (3) 句子中的单词转换成向 ...

  2. 基于朴素贝叶斯的垃圾邮件分类器Java实现和讲解

    朴素贝叶斯算法最典型的应用就是垃圾邮件的识别,在数据量非常大的情况下,识别的正确率可以达到接近100%,同时实现起来思路并不复杂.本文介绍的就是基于朴素贝叶斯算法的垃圾邮件识别的实现.如果之前对贝叶斯 ...

  3. 基于Python的情感极性判断(基于规则、基于逻辑回归、基于朴素贝叶斯)

    资源下载地址:https://download.csdn.net/download/sheziqiong/85734418 资源下载地址:https://download.csdn.net/downl ...

  4. 基于朴素贝叶斯算法的脱贫攻坚小数据分类算法

    通过对**县**乡**村扶贫工作数据分析,提出一种适用于精准扶贫的小数据分析方法.将机器学习.数据理论中的相关性分析和推理方法进行改进,得出基于朴素贝叶斯的小数据分析方法.本程序依据如下公式设计: 式 ...

  5. 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践

    基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍   本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

  6. 基于朴素贝叶斯的垃圾分类算法(Python实现)

    有代码和数据集的 https://blog.csdn.net/weixin_33734785/article/details/91428991 附有git库代码的 https://www.cnblog ...

  7. 详解基于朴素贝叶斯的情感分析及 Python 实现

    相对于「 基于词典的分析 」,「 基于机器学习 」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (共有三个级别,好.中.差) ╮(╯-╰ ...

  8. Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报 分类: 机器学习(19) 听说

    Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报  分类: 机器学习(19)  听说朴 ...

  9. NLP之NBGBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)

    NLP之NB&GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva).梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测) ...

最新文章

  1. 跟我学Springboot开发后端管理系统8:Matrxi-Web权限设计实现
  2. 27 个为什么,帮助你更好的理解Python
  3. 技术人员如何参与产品设计讨论:激活那一潭死水
  4. 关于Scalability的一些思考与疑问
  5. 1007 素数对猜想 (20 分)—PAT (Basic Level) Practice (中文)
  6. python 直方图每个bin中的值_python – 如何获取直方图bin中的数据
  7. vue中 点击事件的写法_Vue父子组件状态同步的最佳方式
  8. OpenCasCade开发环境搭建
  9. HTML+CSS+JavaScript实现打字小游戏
  10. 【layui】省市区的三级联动
  11. WIN7系统更新安装补丁“此更新不适用于你的计算机”解决办法
  12. K8S-Cluster部署
  13. javaweb实现不刷新网页更改页面内容
  14. python 将图片转换成像素画_python画像素图
  15. 将3D坐标转成2D坐标的方法
  16. 携手腾讯官方打造,微信(统信UOS版)首发
  17. 项目排期工具OmniPlan实用指南
  18. Python、C语言技能树测评
  19. Java Date Calendar类的使用 如何计算两个日期之间有多少天
  20. ios html5 拍照旋转,H5 解决ios拍照旋转90度

热门文章

  1. 【Java数据库】ORM思想:对象关系映射 使用Java容器存储多条记录
  2. 区块链系列教程之:比特币中的挖矿
  3. PowerDesigner生成mysql字段comment 注释
  4. Mysql常用30种SQL查询语句优化方法
  5. 1032 挖掘机技术哪家强 (20分)——15行代码AC
  6. 25行代码AC——习题5-7 打印队列(Printer Queue,UVa 12100)——解题报告
  7. Tomcat服务安装与部署(安装与优化)
  8. java如何接受字符_java中string怎么获取指定位置的字符
  9. 介绍一些平时用得到的服务/组件
  10. JAVA模拟肯德基点餐系统源码,肯德基辞职员工透露,用这几句暗语点餐,你拿的分量会比别人多...