python葡萄酒数据集_葡萄酒质量数据集分析

根据数据集,我们需要使用多类分类算法,利用训练和测试数据对该数据集进行分析。如果我错了请纠正我?

对的。

请告诉我是否使用了此数据集的正确算法。

对。但是应用它们的一个更系统的方法是:首先使用PCA来直观地探索类的可分离性及其组件的相对信息性(您使用的是前两个)。然后,对原高维特征空间和PCA低维特征空间进行了逻辑回归。

#importing the libraries

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

import seaborn as sns

#importing the Dataset

dataset = pd.read_csv('winequality-red.csv', sep=';') # https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

sns.countplot(dataset['quality'])

观察:6类和高级不平衡(6可能是因为我们在您共享的页面中使用了不同的数据集)。

另外,正如我所看到的,我们有9个类,其中这个数据集将被划分。请让我知道如何在不同的类中相应地可视化和绘制数据。

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X = sc.fit_transform(X)

#Applying the PCA

from sklearn.decomposition import PCA

fig = plt.figure(figsize=(12,6))

pca = PCA()

pca_all = pca.fit_transform(X)

pca1 = pca_all[:, 0]

pca2 = pca_all[:, 1]

fig.add_subplot(1,2,1)

plt.bar(np.arange(pca.n_components_), 100*pca.explained_variance_ratio_)

plt.title('Relative information content of PCA components')

plt.xlabel("PCA component number")

plt.ylabel("PCA component variance % ")

fig.add_subplot(1,2,2)

plt.scatter(pca1, pca2, c=y, marker='x', cmap='jet')

plt.title('Class distributions')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

量化多类分类性能有许多指标。使用

accuracy

# Splitting the dataset into the Training set and Test set

from sklearn.model_selection import train_test_split

#Fiiting the Logistic Regression model to the training set

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

classifier = LogisticRegression(random_state = 0)

# PCA 2D space

X_train, X_test, y_train, y_test = train_test_split(pd.DataFrame(data=pca_all).iloc[:,0:2], y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_pca_2d = accuracy_score(y_test, y_pred)

# PCA 3D space

X_train, X_test, y_train, y_test = train_test_split(pd.DataFrame(data=pca_all).iloc[:,0:3], y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_pca_3d = accuracy_score(y_test, y_pred)

# PCA 2D space

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

accuracy_original = accuracy_score(y_test, y_pred)

plt.figure()

sns.barplot(x=['pca 2D space', 'pca 3D space', 'original space'], y=[accuracy_pca_2d, accuracy_pca_3d, accuracy_original])

plt.ylabel('accuracy')

这表明在减少的PCA2D空间中进行分类具有负面影响,至少根据这种测量和设置。

为了可视化混乱矩阵,

this

可以使用。申请原空间案件:

python葡萄酒数据集_葡萄酒质量数据集分析相关推荐

使用mnist数据集_使用MNIST数据集上的t分布随机邻居嵌入（t-SNE）进行降维
使用mnist数据集 It is easy for us to visualize two or three dimensional data, but once it goes beyond thr ...
pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战
一.Sklearn介绍 scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了.其完善之处不仅在于实现的算法多,还包括大 ...
python制作图像数据集_详细图像数据集增强原理的python代码
导读在深度学习时代,数据的规模越大.质量越高,模型就能够拥有更好的泛化能力,数据直接决定了模型学习的上限.然而在实际工程中,采集的数据很难覆盖全部的场景,比如图像的光照条件,同一场景拍摄的图片可能由 ...
python画蝴蝶结_使用鸢尾花数据集，通过Sklearn，绘制精确率-召回率曲线—Python...
Python深度学习的一个小例子,用sklearn自己带的鸢尾花数据集训练. 在导入库的过程中,如果导入from sklearn.model_selection import train_test_s ...
推荐算法python数据集_推荐系统常用数据集
ps:对原文有所删减在这篇博客中,作者介绍了九个数据集,其中一些是推荐系统中常用到的标准数据集,也有一些是非传统意义上的数据集(non-traditional datasets),作者相信,这些非传 ...
推荐算法python数据集_推荐算法数据集
Movies Recommendation: MovieLens 基本内容: MovieLens数据集由GroupLens研究组在 University of Minnesota - 明尼苏达大学(与 ...
python迭代数据类型_在大型数据集上自动迭代推断数据类型和最小项大小
在我的工作领域,我经常得到一个很大的csv文件,根本没有关于内容或格式的信息.我正在尝试开发一个工作流来自动推断列的数据类型以及对象数据类型的最大字符串长度,最终目标是将格式化的数据集存储在HDFSt ...
python制作图片数据集_制作图片数据集
在学习卷积神经网络的时候,遇到了cifar10图像数据集,用着挺好,但不想局限于固定的几种图像的识别,所以就有了自己制作数据集来识别的想法. 一.cifar10数据集. 据原网站介绍,数据集为二进制. ...
python和苹果_苹果手机评论情感分析(附python源码和评论数据)
原标题:苹果手机评论情感分析(附python源码和评论数据) 首先抓取网页上的数据,每一页十条评论,生成为一个txt文件. 数据链接回复公众号 datadw 关键字"苹果"获取. ...
建立自己的voc数据集_将自己数据集转化成voc数据集格式并用mmdetection训练
一.准备自己的数据拿nwpu数据集来举例,nwpu数据集文件夹中的内容是: images文件夹:存放数据图片 labelTxt文件夹:存放标注信息,images文件夹中每张图片都对应一个txt文件存 ...

python葡萄酒数据集_葡萄酒质量数据集分析

python葡萄酒数据集_葡萄酒质量数据集分析相关推荐

最新文章

热门文章