根据数据集,我们需要使用多类分类算法,利用训练和测试数据对该数据集进行分析。如果我错了请纠正我?

对的。

请告诉我是否使用了此数据集的正确算法。

对。但是应用它们的一个更系统的方法是:首先使用PCA来直观地探索类的可分离性及其组件的相对信息性(您使用的是前两个)。然后,对原高维特征空间和PCA低维特征空间进行了逻辑回归。

#importing the libraries

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

import seaborn as sns

#importing the Dataset

dataset = pd.read_csv('winequality-red.csv', sep=';') # https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

sns.countplot(dataset['quality'])

观察:6类和高级不平衡(6可能是因为我们在您共享的页面中使用了不同的数据集)。

另外,正如我所看到的,我们有9个类,其中这个数据集将被划分。请让我知道如何在不同的类中相应地可视化和绘制数据。

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X = sc.fit_transform(X)

#Applying the PCA

from sklearn.decomposition import PCA

fig = plt.figure(figsize=(12,6))

pca = PCA()

pca_all = pca.fit_transform(X)

pca1 = pca_all[:, 0]

pca2 = pca_all[:, 1]

fig.add_subplot(1,2,1)

plt.bar(np.arange(pca.n_components_), 100*pca.explained_variance_ratio_)

plt.title('Relative information content of PCA components')

plt.xlabel("PCA component number")

plt.ylabel("PCA component variance % ")

fig.add_subplot(1,2,2)

plt.scatter(pca1, pca2, c=y, marker='x', cmap='jet')

plt.title('Class distributions')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

量化多类分类性能有许多指标。使用

accuracy

:

# Splitting the dataset into the Training set and Test set

from sklearn.model_selection import train_test_split

#Fiiting the Logistic Regression model to the training set

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

classifier = LogisticRegression(random_state = 0)

# PCA 2D space

X_train, X_test, y_train, y_test = train_test_split(pd.DataFrame(data=pca_all).iloc[:,0:2], y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_pca_2d = accuracy_score(y_test, y_pred)

# PCA 3D space

X_train, X_test, y_train, y_test = train_test_split(pd.DataFrame(data=pca_all).iloc[:,0:3], y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_pca_3d = accuracy_score(y_test, y_pred)

# PCA 2D space

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_original = accuracy_score(y_test, y_pred)

plt.figure()

sns.barplot(x=['pca 2D space', 'pca 3D space', 'original space'], y=[accuracy_pca_2d, accuracy_pca_3d, accuracy_original])

plt.ylabel('accuracy')

这表明在减少的PCA2D空间中进行分类具有负面影响,至少根据这种测量和设置。

为了可视化混乱矩阵,

this

可以使用。申请原空间案件:

python葡萄酒数据集_葡萄酒质量数据集分析相关推荐

  1. 使用mnist数据集_使用MNIST数据集上的t分布随机邻居嵌入(t-SNE)进行降维

    使用mnist数据集 It is easy for us to visualize two or three dimensional data, but once it goes beyond thr ...

  2. pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战

    一.Sklearn介绍 scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了.其完善之处不仅在于实现的算法多,还包括大 ...

  3. python制作图像数据集_详细图像数据集增强原理的python代码

    导读 在深度学习时代,数据的规模越大.质量越高,模型就能够拥有更好的泛化能力,数据直接决定了模型学习的上限.然而在实际工程中,采集的数据很难覆盖全部的场景,比如图像的光照条件,同一场景拍摄的图片可能由 ...

  4. python画蝴蝶结_使用鸢尾花数据集,通过Sklearn,绘制精确率-召回率曲线—Python...

    Python深度学习的一个小例子,用sklearn自己带的鸢尾花数据集训练. 在导入库的过程中,如果导入from sklearn.model_selection import train_test_s ...

  5. 推荐算法python数据集_推荐系统常用数据集

    ps:对原文有所删减 在这篇博客中,作者介绍了九个数据集,其中一些是推荐系统中常用到的标准数据集,也有一些是非传统意义上的数据集(non-traditional datasets),作者相信,这些非传 ...

  6. 推荐算法python数据集_推荐算法数据集

    Movies Recommendation: MovieLens 基本内容: MovieLens数据集由GroupLens研究组在 University of Minnesota - 明尼苏达大学(与 ...

  7. python迭代数据类型_在大型数据集上自动迭代推断数据类型和最小项大小

    在我的工作领域,我经常得到一个很大的csv文件,根本没有关于内容或格式的信息.我正在尝试开发一个工作流来自动推断列的数据类型以及对象数据类型的最大字符串长度,最终目标是将格式化的数据集存储在HDFSt ...

  8. python制作图片数据集_制作图片数据集

    在学习卷积神经网络的时候,遇到了cifar10图像数据集,用着挺好,但不想局限于固定的几种图像的识别,所以就有了自己制作数据集来识别的想法. 一.cifar10数据集. 据原网站介绍,数据集为二进制. ...

  9. python和苹果_苹果手机评论情感分析(附python源码和评论数据)

    原标题:苹果手机评论情感分析(附python源码和评论数据) 首先抓取网页上的数据,每一页十条评论,生成为一个txt文件. 数据链接 回复公众号 datadw 关键字"苹果"获取. ...

  10. 建立自己的voc数据集_将自己数据集转化成voc数据集格式并用mmdetection训练

    一.准备自己的数据 拿nwpu数据集来举例,nwpu数据集文件夹中的内容是: images文件夹:存放数据图片 labelTxt文件夹:存放标注信息,images文件夹中每张图片都对应一个txt文件存 ...

最新文章

  1. 07-主队列和全局队列
  2. 怎么用python读取csv文件、并且是读取行-python读取csv文件指定行的2种方法详解...
  3. 文巾解题 面试题 01.06. 字符串压缩
  4. Spring AOP 源码分析-寻找入口
  5. 搜狗输入法精简_韩语输入法软件哪个好?(手机版amp;电脑版)
  6. unittest----assert断言的使用
  7. Shell之分支结构和循环结构
  8. php new mpdf,php – PDF不合并大于使用mPDF的PDF-1.5版本
  9. python 对文件夹的相关操作
  10. 磁力链转bt种子 python_Python实现BT种子转化为磁力链接
  11. img loading=“lazy“ 是什么意思?
  12. java swing企业人事管理系统 java swing mysql实现的企业人事管理系统源码和导入文档(1013)
  13. iOS超级签名系统源码及分析
  14. oracle中字体倒转,Oracle特殊查询 行列倒转 分页
  15. javadoc 创建html,javadoc html标签
  16. linux下TC+HTB流量控制
  17. 风影ASP.NET基础教学 6用户控件
  18. AB测试-A/B Test
  19. 早安心语优美的心情语录
  20. 520表白html实现3D动态相册,换成女朋友照片

热门文章

  1. 方框加对勾怎么输入_如何打出带方框的对号
  2. 支持Kubernetes集群运维审计,JumpServer v2.2.0发布丨Release Notes
  3. python爬虫|post的响应,利用python实现有道翻译在线翻译
  4. Chrome下载大文件速度慢经常失败
  5. 【小技巧】腾讯QQ——腾讯网迷你版弹窗
  6. Android——Intent简介
  7. android 图片 3d 动画,DEMO:transition3d、运用动画实现图片3d翻转效果
  8. 小米 10s fastboot下 刷入 rec
  9. H3C网络故障排除方法
  10. AutoCAD VBA二次开发地形图多边形裁剪