今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容:
        1.机器学习常用数据集介绍
        2.什么是线性回顾
        3.LinearRegression使用方法
        4.线性回归判断糖尿病
        前文推荐:
       【Python数据挖掘课程】一.安装Python及爬虫入门介绍
       【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
       【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
       【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析

希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,同时准备尝试以案例为主的方式进行讲解。如果文章中存在不足或错误的地方,还请海涵~
        同时这篇文章是我上课的内容,所以参考了一些知识,强烈推荐大家学习斯坦福的机器学习Ng教授课程和Scikit-Learn中的内容。由于自己数学不是很好,自己也还在学习中,所以文章以代码和一元线性回归为主,数学方面的当自己学到一定的程度,才能进行深入的分享及介绍。抱歉~

一. 数据集介绍

        1.diabetes dataset数据集
        数据集参考:http://scikit-learn.org/stable/datasets/
        这是一个糖尿病的数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标。

输出如下所示:

[python] view plaincopy
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Thu Oct 27 02:37:05 2016
  4. @author: yxz15
  5. """
  6. from sklearn import datasets
  7. diabetes = datasets.load_diabetes()                         #载入数据
  8. print diabetes.data                                         #数据
  9. print diabetes.target                                       #类标
  10. print u'总行数: ', len(diabetes.data), len(diabetes.target) #数据总行数
  11. print u'特征数: ', len(diabetes.data[0])                    #每行数据集维数
  12. print u'数据类型: ', diabetes.data.shape                    #类型
  13. print type(diabetes.data), type(diabetes.target)            #数据集类型
  14. """
  15. [[ 0.03807591  0.05068012  0.06169621 ..., -0.00259226  0.01990842
  16. -0.01764613]
  17. [-0.00188202 -0.04464164 -0.05147406 ..., -0.03949338 -0.06832974
  18. -0.09220405]
  19. ...
  20. [-0.04547248 -0.04464164 -0.0730303  ..., -0.03949338 -0.00421986
  21. 0.00306441]]
  22. [ 151.   75.  141.  206.  135.   97.  138.   63.  110.  310.  101.
  23. ...
  24. 64.   48.  178.  104.  132.  220.   57.]
  25. 总行数:  442 442
  26. 特征数:  10
  27. 数据类型:  (442L, 10L)
  28. <type 'numpy.ndarray'> <type 'numpy.ndarray'>
  29. """

2.sklearn常见数据集
        常见的sklearn数据集包括,强烈推荐下面这篇文章:
        http://blog.csdn.net/sa14023053/article/details/52086695
        sklearn包含一些不许要下载的toy数据集,见下表,包括波士顿房屋数据集、鸢尾花数据集、糖尿病数据集、手写字数据集和健身数据集等。

3.UCI数据集
        常用数据集包括:http://archive.ics.uci.edu/ml/datasets.html

二. 什么是线性回归

1.机器学习简述
        机器学习(Machine Learning )包括:
        a.监督学习(Supervised Learning):回归(Regression)、分类(Classification)
        例:训练过程中知道结果。小孩给水果分类,给他苹果告诉他是苹果,反复训练学习。在给他说过,问他是什么?他回答准确,如果是桃子,他不能回答为苹果。

b.无监督学习(Unsupervised Learning):聚类(Clustering)
        例:训练过程中不知道结果。给小孩一堆水果,如苹果、橘子、桃子,小孩开始不知道需要分类的水果是什么,让小孩对水果进行分类。分类完成后,给他一个苹果,小孩应该把它放到苹果堆中。

c.增强学习(Reinforcement Learning)
        例:ML过程中,对行为做出评价,评价有正面的和负面两种。通过学习评价,程序应做出更好评价的行为。

d.推荐系统(Recommender System)

2.斯坦福公开课:第二课 单变量线性回归
        这是NG教授的很著名的课程,这里主要引用52nlp的文章,真的太完美了。推荐阅读该作者的更多文章:
        Coursera公开课笔记: 斯坦福大学机器学习第二课"单变量线性回归(Linear regression with one variable)"

<1>模型表示(Model Representation)
        房屋价格预测问题,有监督学习问题。每个样本的输入都有正确输出或答案,它也是一个回归问题,预测一个真实值的输出。
        训练集表示如下:

对于房价预测问题,讯息过程如下所示:

其中x代表房屋的大小,y代表预测的价格,h(hypothesis)将输入变量映射到输出变量y中,如何表示h呢? 可以表示如下公式,简写为h(x),即带一个变量的线性回归或单变量线性回归问题。

<2>成本函数(Cost Function)
        对于上面的公式函数h(x),如何求theta0和theta1参数呢?

构想: 对于训练集(x, y),选取参数0, 1使得hθ(x)尽可能的接近y。如何做呢?一种做法就是求训练集的平方误差函数(squared error function)。
        Cost Function可表示为:

并且选取合适的参数使其最小化,数学表示如下:

总的来说,线性回归主要包括一下四个部分,分别是Hypothesis、Parameters、Cost Function、Goal。右图位简化版,theta0赋值为0。

  

然后令θ1分别取1、0.5、-0.5等值,同步对比hθ(x)和J(θ0,θ1)在二维坐标系中的变化情况,具体可参考原PPT中的对比图,很直观。

<3>梯度下降(Gradient descent)

应用的场景之一最小值问题:

对于一些函数,例如J(θ0,θ1)

目标:  minθ0,θ1J(θ0,θ1)

方法的框架:

a. 给θ0, θ1一个初始值,例如都等于0;

b. 每次改变θ0, θ1的时候都保持J(θ0,θ1)递减,直到达到一个我们满意的最小值;

对于任一J(θ0,θ1) , 初始位置不同,最终达到的极小值点也不同,例如以下例子:

3.一元回归模型
        转自文章:http://blog.sina.com.cn/s/blog_68c81f3901019hhp.html

<1>什么是线性回归?
        回归函数的具体解释和定义,可查看任何一本“概率论与数理统计”的书。我看的是“陈希孺”的。
        这里我讲几点:
        1)统计回归分析的任务,就在于根据 x1,x2,...,xp 线性回归和Y的观察值,去估计函数f,寻求变量之间近似的函数关系。
        2)我们常用的是,假定f函数的数学形式已知,其中若干个参数未知,要通过自变量和因变量的观察值去估计未知的参数值。这叫“参数回归”。其中应用最广泛的是f为线性函数的假设:

这种情况叫做“线性回归”。
        3)自变量只有一个时,叫做一元线性回归。
                                            f(x) = b0+b1x
               自变量有多个时,叫做多元线性回归。  
                                            f(x1,x2,...,xp) = b0 + b1x1 + b2x2 + ... + bpxp
        4)分类(Classification)与回归(Regression)都属于监督学习,他们的区别在于:
               分类:用于预测有限的离散值,如是否得了癌症(0,1),或手写数字的判断,是0,1,2,3,4,5,6,7,8还是9等。分类中,预测的可能的结果是有限的,且提前给定的。
               回归:用于预测实数值,如给定了房子的面积,地段,和房间数,预测房子的价格。

<2>一元线性回归
        假设:我们要预测房价。当前自变量(输入特征)是房子面积x,因变量是房价y.给定了一批训练集数据。 我们要做的是利用手上的训练集数据,得出x与y之间的函数f关系,并用f函数来预测任意面积x对应的房价。
        假设x与y是线性关系,则我们可以接着假设一元线性回归函数如下来代表y的预测值:

我们有训练集了,那么问题就成了如何利用现有的训练集来判定未知参数 (θ0,θ1) 的值,使其让h的值更接近实际值y? 训练集指的是已知x,y值的数据集合!
        一种方法是计算它的成本函数(Cost function),即预测出来的h的值与实际值y之间的方差的大小来决定当前的(θ0,θ1)值是否是最优的!
        常用的成本函数是最小二乘法:

<3>模型总结
        整个一元线性回归通过下面这张图总结即可:

参考文章:斯坦福大学机器学习——线性回归(Linear Regression)

最后,梯度下降和多元回归模型将继续学习,当我学到一定程度,再进行分享。
         http://www.52nlp.cn/coursera公开课笔记-斯坦福大学机器学习第四课多变量

三. LinearRegression使用方法

LinearRegression模型在Sklearn.linear_model下,它主要是通过fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。
        sklearn中引用回归模型的代码如下:

[python] view plaincopy
  1. from sklearn import linear_model       #导入线性模型
  2. regr = linear_model.LinearRegression() #使用线性回归
  3. print regr

输出的函数原型如下所示:

[python] view plaincopy
  1. LinearRegression(copy_X=True,
  2. fit_intercept=True,
  3. n_jobs=1,
  4. normalize=False)

fit(x, y): 训练。分析模型参数,填充数据集。其中x为特征,y位标记或类属性。
        predict(): 预测。它通过fit()算出的模型参数构成的模型,对解释变量进行预测其类属性。预测方法将返回预测值y_pred。

这里推荐"搬砖小工053"大神的文章,非常不错,强烈推荐。
        引用他文章的例子,参考:scikit-learn : 线性回归,多元回归,多项式回归

[python] view plaincopy
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Fri Oct 28 00:44:55 2016
  4. @author: yxz15
  5. """
  6. from sklearn import linear_model       #导入线性模型
  7. import matplotlib.pyplot as plt        #绘图
  8. import numpy as np
  9. #X表示匹萨尺寸 Y表示匹萨价格
  10. X = [[6], [8], [10], [14], [18]]
  11. Y = [[7], [9], [13], [17.5], [18]]
  12. print u'数据集X: ', X
  13. print u'数据集Y: ', Y
  14. #回归训练
  15. clf = linear_model.LinearRegression() #使用线性回归
  16. clf.fit(X, Y)                         #导入数据集
  17. res = clf.predict(np.array([12]).reshape(-1, 1))[0] #预测结果
  18. print(u'预测一张12英寸匹萨价格:$%.2f' % res)
  19. #预测结果
  20. X2 = [[0], [10], [14], [25]]
  21. Y2 = clf.predict(X2)
  22. #绘制线性回归图形
  23. plt.figure()
  24. plt.title(u'diameter-cost curver')   #标题
  25. plt.xlabel(u'diameter')              #x轴坐标
  26. plt.ylabel(u'cost')                  #y轴坐标
  27. plt.axis([0, 25, 0, 25])             #区间
  28. plt.grid(True)                       #显示网格
  29. plt.plot(X, Y, 'k.')                 #绘制训练数据集散点图
  30. plt.plot(X2, Y2, 'g-')               #绘制预测数据集直线
  31. plt.show()

运行结果如下所示,首先输出数据集,同时调用sklearn包中的LinearRegression()回归函数,fit(X, Y)载入数据集进行训练,然后通过predict()预测数据12尺寸的匹萨价格,最后定义X2数组,预测它的价格。

[python] view plaincopy
  1. 数据集X:  [[6], [8], [10], [14], [18]]
  2. 数据集Y:  [[7], [9], [13], [17.5], [18]]
  3. 预测一张12英寸匹萨价格:$13.68

输出的图形如下所示:

线性模型的回归系数W会保存在他的coef_方法中,截距保存在intercept_中。score(X,y,sample_weight=None) 评分函数,返回一个小于1的得分,可能会小于0。

[python] view plaincopy
  1. print u'系数', clf.coef_
  2. print u'截距', clf.intercept_
  3. print u'评分函数', clf.score(X, Y)
  4. '''''
  5. 系数 [[ 0.9762931]]
  6. 截距 [ 1.96551743]
  7. 评分函数 0.910001596424
  8. '''

其中具体的系数介绍推荐如下资料: sklearn学习笔记之简单线性回归 - Magle

四. 线性回归判断糖尿病

        1.Diabetes数据集(糖尿病数据集)
        糖尿病数据集包含442个患者的10个生理特征(年龄,性别、体重、血压)和一年以后疾病级数指标。
        然后载入数据,同时将diabetes糖尿病数据集分为测试数据和训练数据,其中测试数据为最后20行,训练数据从0到-20行(不包含最后20行),即diabetes.data[:-20]。

[python] view plaincopy
  1. from sklearn import datasets
  2. #数据集
  3. diabetes = datasets.load_diabetes() #载入数据
  4. diabetes_x = diabetes.data[:, np.newaxis]  #获取一个特征
  5. diabetes_x_temp = diabetes_x[:, :, 2]
  6. diabetes_x_train = diabetes_x_temp[:-20]   #训练样本
  7. diabetes_x_test = diabetes_x_temp[-20:]    #测试样本 后20行
  8. diabetes_y_train = diabetes.target[:-20]   #训练标记
  9. diabetes_y_test = diabetes.target[-20:]    #预测对比标记
  10. print u'划分行数:', len(diabetes_x_temp), len(diabetes_x_train), len(diabetes_x_test)
  11. print diabetes_x_test

输出结果如下所示,可以看到442个数据划分为422行进行训练回归模型,20行数据用于预测。输出的diabetes_x_test共20行数据,每行仅一个特征。

[python] view plaincopy
  1. 划分行数: 442 422 20
  2. [[ 0.07786339]
  3. [-0.03961813]
  4. [ 0.01103904]
  5. [-0.04069594]
  6. [-0.03422907]
  7. [ 0.00564998]
  8. [ 0.08864151]
  9. [-0.03315126]
  10. [-0.05686312]
  11. [-0.03099563]
  12. [ 0.05522933]
  13. [-0.06009656]
  14. [ 0.00133873]
  15. [-0.02345095]
  16. [-0.07410811]
  17. [ 0.01966154]
  18. [-0.01590626]
  19. [-0.01590626]
  20. [ 0.03906215]
  21. [-0.0730303 ]]

        2.完整代码
        改代码的任务是从生理特征预测疾病级数,但仅获取了一维特征,即一元线性回归。【线性回归】的最简单形式给数据集拟合一个线性模型,主要是通过调整一系列的参以使得模型的残差平方和尽量小。
        线性模型:y = βX+b 
        X:数据 y:目标变量 β:回归系数 b:观测噪声(bias,偏差)
        参考文章:Linear Regression Example - Scikit-Learn

[python] view plaincopy
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Fri Oct 28 01:21:30 2016
  4. @author: yxz15
  5. """
  6. from sklearn import datasets
  7. import matplotlib.pyplot as plt
  8. import numpy as np
  9. #数据集
  10. diabetes = datasets.load_diabetes() #载入数据
  11. #获取一个特征
  12. diabetes_x_temp = diabetes.data[:, np.newaxis, 2]
  13. diabetes_x_train = diabetes_x_temp[:-20]   #训练样本
  14. diabetes_x_test = diabetes_x_temp[-20:]    #测试样本 后20行
  15. diabetes_y_train = diabetes.target[:-20]   #训练标记
  16. diabetes_y_test = diabetes.target[-20:]    #预测对比标记
  17. #回归训练及预测
  18. clf = linear_model.LinearRegression()
  19. clf.fit(diabetes_x_train, diabetes_y_train)  #注: 训练数据集
  20. #系数 残差平法和 方差得分
  21. print 'Coefficients :\n', clf.coef_
  22. print ("Residual sum of square: %.2f" %np.mean((clf.predict(diabetes_x_test) - diabetes_y_test) ** 2))
  23. print ("variance score: %.2f" % clf.score(diabetes_x_test, diabetes_y_test))
  24. #绘图
  25. plt.title(u'LinearRegression Diabetes')   #标题
  26. plt.xlabel(u'Attributes')                 #x轴坐标
  27. plt.ylabel(u'Measure of disease')         #y轴坐标
  28. #点的准确位置
  29. plt.scatter(diabetes_x_test, diabetes_y_test, color = 'black')
  30. #预测结果 直线表示
  31. plt.plot(diabetes_x_test, clf.predict(diabetes_x_test), color='blue', linewidth = 3)
  32. plt.show()

运行结果如下所示,包括系数、残差平方和、方差分数。

[python] view plaincopy
  1. Coefficients :[ 938.23786125]
  2. Residual sum of square: 2548.07
  3. variance score: 0.47

绘制图形如下所示,每个点表示真实的值,而直线表示预测的结果,比较接近吧。

同时绘制图形时,想去掉坐标具体的值,可增加如下代码:

[python] view plaincopy
  1. plt.xticks(())
  2. plt.yticks(())

五. 优化代码

下面是优化后的代码,增加了斜率、 截距的计算,同时增加了点图到线性方程的距离,保存图片设置像素。

[python] view plaincopy
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Thu Dec 29 12:47:58 2011
  4. @author: Administrator
  5. """
  6. #第一步 数据集划分
  7. from sklearn import datasets
  8. import numpy as np
  9. #获取数据 10*442
  10. d = datasets.load_diabetes()
  11. x = d.data
  12. print u'获取x特征'
  13. print len(x), x.shape
  14. print x[:4]
  15. #获取一个特征 第3列数据
  16. x_one = x[:,np.newaxis, 2]
  17. print x_one[:4]
  18. #获取的正确结果
  19. y = d.target
  20. print u'获取的结果'
  21. print y[:4]
  22. #x特征划分
  23. x_train = x_one[:-42]
  24. x_test = x_one[-42:]
  25. print len(x_train), len(x_test)
  26. y_train = y[:-42]
  27. y_test = y[-42:]
  28. print len(y_train), len(y_test)
  29. #第二步 线性回归实现
  30. from sklearn import linear_model
  31. clf = linear_model.LinearRegression()
  32. print clf
  33. clf.fit(x_train, y_train)
  34. pre = clf.predict(x_test)
  35. print u'预测结果'
  36. print pre
  37. print u'真实结果'
  38. print y_test
  39. #第三步 评价结果
  40. cost = np.mean(y_test-pre)**2
  41. print u'次方', 2**5
  42. print u'平方和计算:', cost
  43. print u'系数', clf.coef_
  44. print u'截距', clf.intercept_
  45. print u'方差', clf.score(x_test, y_test)
  46. #第四步 绘图
  47. import matplotlib.pyplot as plt
  48. plt.title("diabetes")
  49. plt.xlabel("x")
  50. plt.ylabel("y")
  51. plt.plot(x_test, y_test, 'k.')
  52. plt.plot(x_test, pre, 'g-')
  53. for idx, m in enumerate(x_test):
  54. plt.plot([m, m],[y_test[idx],
  55. pre[idx]], 'r-')
  56. plt.savefig('power.png', dpi=300)
  57. plt.show()

运行结果如下所示:

[python] view plaincopy
  1. 获取x特征
  2. 442 (442L, 10L)
  3. [[ 0.03807591  0.05068012  0.06169621  0.02187235 -0.0442235  -0.03482076
  4. -0.04340085 -0.00259226  0.01990842 -0.01764613]
  5. [-0.00188202 -0.04464164 -0.05147406 -0.02632783 -0.00844872 -0.01916334
  6. 0.07441156 -0.03949338 -0.06832974 -0.09220405]
  7. [ 0.08529891  0.05068012  0.04445121 -0.00567061 -0.04559945 -0.03419447
  8. -0.03235593 -0.00259226  0.00286377 -0.02593034]
  9. [-0.08906294 -0.04464164 -0.01159501 -0.03665645  0.01219057  0.02499059
  10. -0.03603757  0.03430886  0.02269202 -0.00936191]]
  11. [[ 0.06169621]
  12. [-0.05147406]
  13. [ 0.04445121]
  14. [-0.01159501]]
  15. 获取的结果
  16. [ 151.   75.  141.  206.]
  17. 400 42
  18. 400 42
  19. LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
  20. 预测结果
  21. [ 196.51241167  109.98667708  121.31742804  245.95568858  204.75295782
  22. 270.67732703   75.99442421  241.8354155   104.83633574  141.91879342
  23. 126.46776938  208.8732309   234.62493762  152.21947611  159.42995399
  24. 161.49009053  229.47459628  221.23405012  129.55797419  100.71606266
  25. 118.22722323  168.70056841  227.41445974  115.13701842  163.55022706
  26. 114.10695016  120.28735977  158.39988572  237.71514243  121.31742804
  27. 98.65592612  123.37756458  205.78302609   95.56572131  154.27961264
  28. 130.58804246   82.17483382  171.79077322  137.79852034  137.79852034
  29. 190.33200206   83.20490209]
  30. 真实结果
  31. [ 175.   93.  168.  275.  293.  281.   72.  140.  189.  181.  209.  136.
  32. 261.  113.  131.  174.  257.   55.   84.   42.  146.  212.  233.   91.
  33. 111.  152.  120.   67.  310.   94.  183.   66.  173.   72.   49.   64.
  34. 48.  178.  104.  132.  220.   57.]
  35. 次方 32
  36. 平方和计算: 83.192340827
  37. 系数 [ 955.70303385]
  38. 截距 153.000183957
  39. 方差 0.427204267067

绘制图形如下所示:

强烈推荐下面线性回归相关的文章,希望读者自行阅读:
            [译]针对科学数据处理的统计学习教程(scikit-learn教程2)Tacey Wong (重点)
            scikit-learn : 线性回归 - 搬砖小工053      
            结合Scikit-learn介绍几种常用的特征选择方法 - Bryan
            用Python开始机器学习(3:数据拟合与广义线性回归) - lsldd
            Scikit Learn: 在python中机器学习 - yyliu
            Python机器学习——线性模型 - 郝智恒
            sklearn 数据加载工具(1) - 搬砖小工053
            sklearn系列之----线性回归 - Gavin__Zhou

希望文章对你有所帮助,上课内容还需要继续探索,这篇文章更希望你关注的是Python代码如何实现的,因为数学不好,所以详细的推导过程,建议看文中的链接。
        (By:Eastmount 2016-10-28 半夜3点半 http://blog.csdn.net/eastmount/ )

Python数据挖掘课程 五.线性回归知识及预测糖尿病实例相关推荐

  1. 【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例

    今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容:         1.机器学习常用数据集介绍         2.什么是线性回顾         3.LinearRegre ...

  2. 数据挖掘学习笔记 5 线性回归知识及预测糖尿病实例

    #2018-03-21 16:45:01 March Wednesday the 12 week, the 080 day SZ SSMR http://blog.csdn.net/eastmount ...

  3. 读书《Python数据挖掘课程》

    [Python数据挖掘课程]一.安装Python及爬虫入门介绍 [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍 [Python数据挖掘课程]三.Kmeans聚类代码实现 ...

  4. 【python数据挖掘课程】十八.线性回归及多项式回归分析四个案例分享

    这是<Python数据挖掘课程>系列文章,也是我这学期大数据金融学院上课的部分内容.本文主要讲述和分享线性回归作业中,学生们做得比较好的四个案例,经过我修改后供大家学习,内容包括:     ...

  5. 【python数据挖掘课程】二十五.Matplotlib绘制带主题及聚类类标的散点图

    这是<Python数据挖掘课程>系列文章,希望对您有所 帮助.当我们做聚类分析绘制散点图时,通常会遇到无法区分散点类标的情况,做主题分析时,可能会遇到无法将对应散点的名称(尤其中文名称)添 ...

  6. 【python数据挖掘课程】二十三.时间序列金融数据预测及Pandas库详解

    这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述时间序列算法原理,Pandas扩展包基本用法以及Python调用statsmodels库的时间序列算 ...

  7. 【python数据挖掘课程】二十二.Basemap地图包安装入门及基础知识讲解

    这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述Matplotlib子包,负责地图绘制,即Basemap扩展包.在做数据挖掘或可视化分析时,常常需要 ...

  8. 【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析

    这是<Python数据挖掘课程>系列文章,也是我这学期上课的部分内容.本文主要讲述鸢尾花数据集的各种分析,包括可视化分析.线性回归分析.决策树分析等,通常一个数据集是可以用于多种分析的,希 ...

  9. 【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

    前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy.Pandas和Matplotlib三个包.目录:   ...

最新文章

  1. C# GDI+ 文字 阴影,描边 的实现
  2. android sdk启动不了,windows server 2008下android sdk不能正常启动
  3. 实用:前端小白的切图技巧
  4. SAP CDS view自学教程之十:SAP CDS view扩展性(Extensibility)实现原理
  5. [vue] 如果将axios异步请求同步化处理?
  6. 谷歌浏览器chorme,wap浏览器,字…
  7. 实在不行来瓶敌敌畏吧!Scrapy框架爬取某农药肥料网站+异步Mysql数据库存储
  8. 2019 强网杯 babybank
  9. oracle中月初月末的表示
  10. Intellij IDEA优化配置(1)------Darcula主题的选择以及字体和颜色配置(基于Intellij IDEA 2019.1)
  11. EAX、ECX、EDX、EBX、ESI、EDI、ESP、EBP寄存器
  12. AS608指纹模块开发教程
  13. 区域云LIS检验系统源码 商业级LIS全套源代码 预留标准HIS、仪器数据接入接口
  14. 20220712 初识JS
  15. E4A易安卓计次循环和变量循环及数组
  16. Oracle中关于临时表空间无法释放问题
  17. 东南亚跨境一件代发好用的Shopee货代系统—星卓越
  18. linux智能手机防盗程序-手机丢失不再是易事,安全管家防盗功能 助用户快速找回手机...
  19. MMSeg错误:RuntimeError: Default process group has not been initialized
  20. 有偏估计 无偏估计matlab,有偏估计和无偏估计

热门文章

  1. PHP对接美团API接口 实现卡卷核销功能
  2. 51单片机可以晚电子游戏吗_电子游戏是在浪费时间吗
  3. 基于大数据的优质服务 微车将构建汽车互联网新生态
  4. bootstrap 表单提交验证
  5. MATLAB 对试验点进行三次拟合
  6. 【支小蜜智慧食堂】随时查账单,解决学校食堂点餐效率低问题
  7. 【清华集训2014】玛里苟斯
  8. 记录开始学习AS400(01)
  9. 【Labview】G语言
  10. Franklin C-51语言程序设计基础