目录

一、问题阐述

1.1、数据集信息

1.2、可解决的问题

二、设计目的

三、实验需要的平台

四、基本原理分析

4.1、逻辑回归算法基本原理

4.2、支持向量机算法的基本原理

五、实验过程阐述及实验结论

5.1、实现逻辑回归算法过程及结论

5.2、实现支持向量机算法过程及结论

六、分析支持向量机算法和逻辑回归算法的异同及优缺点

6.1、逻辑回归算法与支持向量机算法的异同点

6.2、逻辑回归算法的优缺点

6.3、支持向量机算法优缺点

七、结论

7.1、逻辑回归算法结果

7.2、支持向量机算法结果

7.3、kmeans算法结果

八、附加

8.1、Kmeans算法的基本原理

8.2、Kmeans算法的优缺点

九、代码


wine葡萄酒数据集分析报告

一、问题阐述

1.1、数据集信息

wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中,每行代表一种酒的样本,共有178个样本,一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。具体属性描述如下:

1.2、可解决的问题

这是一个多类分类问题,但也可以被定义为回归问题。它的分类数据是不均衡的(例如,正常葡萄酒的数量比优质或差的葡萄酒多得多),很适合针对不均衡数据集的分类练习。除此之外,数据集中所有特征并不都是相关的,因此也可以拿来练习特征工程和特征选择。

二、设计目的

wine数据集,是红酒数据集,可以用来测试分类算法的性能。该数据集为意大利同一地区生产的三个不同种类的葡萄酒的成分数据,对其178条数据进行分析处理,其中共有13个成分特征.为了解决人工评审葡萄酒分类时容易产生错误的问题,提高分类效率,采用机器学习中支持向量机,逻辑回归等方法对其特征进行分析来确定葡萄酒的分类。

三、实验需要的平台

本项目用的python作为开发语言,pycharm作为开发工具,免费软件机器学习库sklearn,Python 2D绘图库Matplotlib。sklearn它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。Matplotlib它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。

四、基本原理分析

4.1、逻辑回归算法基本原理

逻辑回归是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。逻辑回归的原理是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1),回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率。

4.2、支持向量机算法的基本原理

支持向量机(Support Vector Machine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

SVM的核心思想可以概括为两点:

(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。

(2)它基于结构风险最小化理论之上再特征空间中构建最优超平面,使得学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。

五、实验过程阐述及实验结论

5.1、实现逻辑回归算法过程及结论

x_train,y_train,x_test,y_test = data_train,target_train,data_test,target_test
clf = LinearRegression().fit(x_train,y_train)
y_pred = clf.predict(x_test)

将数据集划分为测试集和训练集,运用逻辑回归算法函数训练训练集得到clf训练模型,再根据clf模型去预测测试集,根据预测结果来查看该模型的训练是否成功

5.2、实现支持向量机算法过程及结论

svm = SVC().fit(data_std_train,target_train)#建立svc模型
target_pred = svm.predict(data_std_test)#结果预测

加载数据,将数据集分为训练集和测试集,运用支持向量机算法训练训练集得到svm训练模型,再根据svm模型去预测测试集,根据预测结果来查看该模型的训练是否成功

六、分析支持向量机算法和逻辑回归算法的异同及优缺点

6.1、逻辑回归算法与支持向量机算法的异同点

相同点:

1、都是分类算法,本质上都是在找最佳分类超平面;

2、都是监督学习算法;

3、都是判别式模型,判别模型不关心数据是怎么生成的,它只关心数据之间的差别,然后

4、用差别来简单对给定的一个数据进行分类;

5、都可以增加不同的正则项。

不同点:

1、LR 是一个统计的方法,SVM 是一个几何的方法;

2、SVM 的处理方法是只考虑 Support Vectors,也就是和分类最相关的少数点去学习分类器。而逻辑回归通过非线性映射减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重;

3、损失函数不同:LR 的损失函数是交叉熵,SVM 的损失函数是 HingeLoss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。对 HingeLoss 来说,其零区域对应的正是非支持向量的普通样本,从而所有的普通样本都不参与最终超平面的决定,这是支持向量机最大的优势所在,对训练样本数目的依赖大减少,而且提高了训练效率;

4、LR 是参数模型,SVM 是非参数模型,参数模型的前提是假设数据服从某一分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响,尤其是样本不均衡时影响很大,需要先做平衡,而 SVM 不直接依赖于分布;

5、LR 可以产生概率,SVM 不能;

6、LR 不依赖样本之间的距离,SVM 是基于距离的;

7、LR 相对来说模型更简单好理解,特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些,SVM 转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算

6.2、逻辑回归算法的优缺点

算法优点:

(1)对率函数任意阶可导,具有很好的数学性质,许多现有的数值优化算法都可以用来求最优解,训练速度快;

(2)简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;

(3)适合二分类问题,不需要缩放输入特征;

(4)内存资源占用小,因为只需要存储各个维度的特征值;

(5)直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确所带来的问题

(6)以概率的形式输出,而非知识0.1判定,对许多利用概率辅助决策的任务很有用

算法缺点:

(1)不能用逻辑回归去解决非线性问题,因为Logistic的决策面试线性的;

(2)对多重共线性数据较为敏感;

(3)很难处理数据不平衡的问题;

(4)准确率并不是很高,因为形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布;

(5)逻辑回归本身无法筛选特征,有时会用gbdt来筛选特征,然后再上逻辑回归。

6.3、支持向量机算法优缺点

算法优点:  

 (1)使用核函数可以向高维空间进行映射

 (2)使用核函数可以解决非线性的分类

 (3)分类思想很简单,就是将样本与决策面的间隔最大化

 (4)分类效果较好

算法缺点:

 (1)SVM算法对大规模训练样本难以实施

 (2)用SVM解决多分类问题存在困难

 (3)对缺失数据敏感,对参数和核函数的选择敏感  

七、结论

7.1、逻辑回归算法结果

7.2、支持向量机算法结果

7.3、kmeans算法结果

八、附加

8.1、Kmeans算法的基本原理

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

假设要把样本集分为k个类别,算法描述如下:

  (1)适当选择k个类的初始中心,最初一般为随机选取;

(2)在每次迭代中,对任意一个样本,分别求其到k个中心的欧式距离,将该样本归到距离最短的中心所在的类;

  (3)利用均值方法更新该k个类的中心的值;

  (4)对于所有的k个聚类中心,重复(2)(3),类的中心值的移动距离满足一定条件时,则迭代结束,完成分类。

Kmeans聚类算法原理简单,效果也依赖于k值和类中初始点的选择。

8.2、Kmeans算法的优缺点

算法优点:

(1)原理简单,收敛速度快,这个是业界用它最多的重要原因之一。

(2)调参的时候只需要改变k一个参数。

(3)算法的原理简单,可解释性好

算法缺点:

(1)对于离群点和噪音点敏感。例如在距离中心很远的地方手动加一个噪音点,那么中心的位置就会被拉跑偏很远。

(2)k值的选择很难确定。

(3)只能发现球状的簇。在k-means中,我们用单个点对cluster进行建模,这实际上假设了各个cluster的数据是呈高维球型分布的,但是在生活中出现这种情况的概率并不算高。例如,每一个cluster是一个一个的长条状的,k-means的则根本识别不出来这种类别(这种情况可以用GMM)。实际上,k-means是在做凸优化,因此处理不了非凸的分布。

(4)如果两个类别距离比较近,k-means的效果也不会太好。

(5)初始值对结果影响较大,可能每次聚类结果都不一样。

(6)结果可能只是局部最优而不是全局最优。

九、代码

from sklearn.cluster import KMeans#K-Means聚类模型
from sklearn.datasets import load_wine#wine数据集
import numpy as np
import matplotlib.pyplot as plt#数据可视化
from sklearn.decomposition import PCA#pca降维
from sklearn.linear_model import LinearRegression#线性回归模型
from sklearn.metrics import fowlkes_mallows_score, silhouette_score, classification_report, mean_absolute_error, \mean_squared_error, median_absolute_error, explained_variance_score, r2_score
from sklearn.model_selection import train_test_split#数据集划分
from sklearn.preprocessing import StandardScaler#标准差标准化
from sklearn.svm import SVC#SVM分类模型#导入数据集
wine = load_wine()
data = wine['data']
target = wine['target']
print("data:")
print(data)
print("target")
print(target)#数据集划分为训练集,测试集
data_train,data_test,target_train,target_test = train_test_split(data,target,test_size=0.2,random_state=125)#标准差标准化(规则)
stdScaler = StandardScaler().fit(data_train)#stdScaler存有计算出来的均值和方差
data_std_train = stdScaler.transform(data_train)#使用stdScaler中的均值和方差使得data_train归一化
data_std_test = stdScaler.transform(data_test)
#pca降维
pca_model = PCA(n_components=10).fit(data_std_train)#规则
data_pca_train = pca_model.transform(data_std_train)
data_pca_test = pca_model.transform(data_std_test)
print(data_pca_test)#聚类模型
kmeans = KMeans(n_clusters=3,random_state=42).fit(data)
print('聚类模型为:',kmeans)
#聚类评分
#方法1FMI评分:
s = []
for i in range(2,11):kmeans1 = KMeans(n_clusters=i,random_state=42).fit(data)score1 = fowlkes_mallows_score(target,kmeans1.labels_)print('FMI第%d类,评分为:%f'%(i,score1))s.append(score1)
print('FMI最优评分为:%f'%np.max(s))
#方法2轮廓系数评分:
sil_score = []
for j in range(2,15):kmeans2 = KMeans(n_clusters=j, random_state=42).fit(data)score2=silhouette_score(data,kmeans2.labels_)sil_score.append(score2)
plt.rcParams['font.sans-serif'] = 'simhei'
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(10,6))
plt.title('轮廓系数评分折线图')
plt.plot(range(2,15),sil_score,linewidth=1.5,linestyle='-',c='red')
plt.xticks(range(2,15,1))
plt.show()# svm分类及预测
svm = SVC().fit(data_std_train,target_train)#建立svc模型
target_pred = svm.predict(data_std_test)#结果预测
true = np.sum(target_pred == target_test)
accuracy=true/target_test.shape[0]
print("svm算法:")
print('预测正确结果:',true)
print('预测错误结果:',target_test.shape[0]-true)
print('正确率:',accuracy)
#评价报告
print('svm分类结果报告为:','\n',classification_report(target_test,target_pred))#逻辑回归
x_train,y_train,x_test,y_test = data_train,target_train,data_test,target_test
clf = LinearRegression().fit(x_train,y_train)
y_pred = clf.predict(x_test)
print("逻辑回归算法:")
print('预测:',y_pred)#回归结果可视化
plt.figure(figsize=(10,7))
plt.plot(range(y_test.shape[0]),y_test,linewidth=1.7,linestyle='-')
plt.plot(range(y_test.shape[0]),y_pred,linewidth=1.5,linestyle='-.')
plt.legend(['true_calue','predicted_value'])
plt.show()
#评价回归模型
print('Boston数据线性回归模型的平均绝对误差为:',mean_absolute_error(y_test,y_pred))
print('Boston数据线性回归模型的均方差为:',mean_squared_error(y_test,y_pred))
print('Boston数据线性回归模型的中值绝对误差为:',median_absolute_error(y_test,y_pred))
print('Boston数据线性回归模型的可解释方差值为:',explained_variance_score(y_test,y_pred))
print('Boston数据线性回归模型的R^2为:',r2_score(y_test,y_pred))

本文代码借鉴:

https://blog.csdn.net/qq_41033254/article/details/90112868

基于wine葡萄酒数据集的分类方法研究相关推荐

  1. wine葡萄酒数据集KNNSVM分类实验

    声明:本篇文章是本人课程作业的内容,只提供平时学习参考使用,请勿转载. 介绍:数据挖掘 来源:kaibo_lei_ZZU 本片文章是使用分类算法KNN,和SVM支持向量机分类算法,对Wine数据集进行 ...

  2. 基于深度神经网络的高光谱影响分类方法研究---MNF+自动编码器+Softmax (准确率比较低,17年的论文)

    论文地址 基于深度神经网络的高光谱影响分类方法研究 装备学院学报 遥感影像分类的问题:预处理复杂,高维特征提取困难,分类不够精确等缺陷 首先采用最大噪声分数来降低特征空间维度,然后将自动编码器与sof ...

  3. 使用神经网络实现葡萄酒数据集的分类分析

    目录 一.实验目的 二.实验环境 三.实验内容和过程 一.实验目的 掌握神经网络及深度学习建模分析 掌握使用神经网络实现分类的方法 掌握使用Keras框架实现深度学习的方法 了解各分类器之间的差异 二 ...

  4. 基于深度学习的动物识别方法研究与实现

    基于深度学习的动物识别方法研究与实现 目  录 摘  要 I ABSTRACT II     第一章  绪论 1 1.1 研究的目的和意义 1 1.2国内外研究现状 1 1.2.1 目标检测国内外研究 ...

  5. 基于MMS街景的导航数据采集方法研究

    基于MMS街景的导航数据采集方法研究 李观石,刘波,陆藩藩,宋法奇 (江苏省基础地理信息中心,江苏南京 210013) 摘  要       本文利用MMS街景数据,结合基础地理信息数据进行导航数据的 ...

  6. 【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

    ·阅读摘要:   本文在BERT模型上,提出了利用多任务架构来解决层级多标签文本分类问题. ·参考文献:   [1] MSML-BERT模型的层级多标签文本分类方法研究 [0] 摘要   在摘要中,作 ...

  7. 论文精读-基于双目图像的视差估计方法研究以及实现

    基于双目图像的视差估计方法研究及实现 第一章 绪论 1.1 课题的研究背景与意义 1.2 双目视差估计的研究现状 1.2.1 传统立体匹配方法研究现状 1.2.2 统计学习方法研究现状 1.2.3 深 ...

  8. 基于html5的数据可视化实现方法研究,基于HTML5的数据可视化实现方法研究

    信息科技 Information Technology 基于HTML5的数据可视化实现方法研究 高科同济大学电子与信息学院,上海 201804摘要 HTML5的出现,为数据可视化提供了新的实现方法.本 ...

  9. 直觉模糊有计算机知识嘛,基于直觉模糊集理论的IDS方法研究-计算机科学.PDF

    基于直觉模糊集理论的IDS方法研究-计算机科学 第 卷 第 期 计 算 机 科 学 45 11A Vol.45No.11A 年 月 2018 11 COMPUTER SCIENCE Nov.2018 ...

  10. 基于迁移学习的旋转机械故障诊断方法研究学习笔记

    基于迁移学习的旋转机械故障诊断方法研究学习笔记 现在大一点的神经网络模型也要求数据量的足够大,但是对于小样本的数据,有一些神经网络模型也能够处理的很好 2. 这是现在神经网络也要求的数据最好能够独立同 ...

最新文章

  1. Node.js 开发指南笔记
  2. 三十三、自从我会了Python中的PIL,发现了其实超级简单
  3. 为什么说学人工智能一定要学Python?
  4. asp网页设计流量统计代码
  5. 计算机知识太多了,计算机基础知识对程序员来说有多重要?
  6. 机器视觉齿轮质量快速检测
  7. oracle使用between and边界问题
  8. 保护计算机系统与数据有什么方法,电脑数据保护方法 看完保你不后悔
  9. HTTP中的POST、GET区别
  10. gulp教程、gulp-less安装
  11. Educoder jQuery 入门
  12. 有幸为鲍勃大叔的封山之作《匠艺整洁之道》写了推荐序,顺手赠书!
  13. java计算机毕业设计网上书店进销存管理系统源码+数据库+系统+lw文档+mybatis+运行部署
  14. Windows打开dcm文件、dcm文件批量转其它图片文件格式
  15. 禁止Tencent Upd
  16. win10系统bug:开机自动打开空白word文档
  17. Android 模拟登陆正方教务系统
  18. 身家过亿的帝都王子来到1024盛宴-小码农献上linux进阶知识点一篇
  19. 途牛旅游项目练习-登录篇
  20. Java并发编程(十六):CyclicBarrier源码分析

热门文章

  1. 李开复就中国移动开发者大会的演讲总结 --摘自新浪微博
  2. 如何高效学习?(个人经验篇)
  3. gst-launch-1.0
  4. Java //PP2.14 按照以下要求修改程序Snowman: ·在其身上添加两个红色按钮。·将雪人的表情由笑脸变成皱眉。·把太阳移动到图片的右上角。·在图片左上角显示你的名字。。。
  5. 2014.3 USACO月赛T1 Watering the Fields
  6. 第二篇 界面开发 (Android学习笔记)
  7. html制作简历供人填写,求职简历制作个人定制代写
  8. python库文件简介整理
  9. 外贸常用术语_外贸常用术语大全
  10. win10总是更新失败