sklearn使用numpy ndarray或者pandas dataframe作为训练数据,调用fit()函数即可完成训练。
本部分我们先介绍一下sklearn的基本用法。

二分类

我们先看一个二分类问题,将mnist分类成数字5和非5两类:

from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1)
X,y = mnist['data'], mnist['target']X_train, X_test = X[:6000], X[6000:]
y_train, y_test = y[:6000].astype(np.uint8), y[6000:].astype(np.uint8)
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(loss='hinge')
sgd_clf.fit(X_train, y_train_5)
print(sgd_clf.predict([X[0]]))from sklearn.model_selection import cross_val_score
cross_val_score(sgd_model, X_train, y_train_5, cv=3, scoring='accuracy')
[False]array([0.96  , 0.9575, 0.964 ])

回归

我们再看一个回归算法的示例,使用的是housing数据集,预测地区房产的中位数。

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):if not os.path.isdir(housing_path):os.makedirs(housing_path)tgz_file = os.path.join(housing_path,'housing.tgz')urllib.request.urlretrieve(housing_url, tgz_file)housing_tgz = tarfile.open(tgz_file)housing_tgz.extractall(path = housing_path) #解压文件housing_tgz.close()# fetch_housing_data()housing = pd.read_csv(os.path.join(HOUSING_PATH,'housing.csv'))median = housing['total_bedrooms'].median()
housing['total_bedrooms'].fillna(median,inplace=True)housing_label = housing['median_house_value']
housing_feature = housing.drop(['median_house_value','ocean_proximity'], axis=1)from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(housing_feature,housing_label)
print(model.intercept_, model.coef_)
-3570118.0614940603 [-4.26104026e+04 -4.24754782e+04  1.14445085e+03 -6.62091740e+008.11609666e+01 -3.98732002e+01  7.93047225e+01  3.97522237e+04]

sklearn的基本用法:分类与回归相关推荐

  1. 浅谈对机器学习方法(决策树,SVM,knn最近邻,随机森林,朴素贝叶斯、逻辑回归)的理解以及用sklearn工具实现文本分类和回归方法...

    一.决策树 定下一个最初的质点,从该点出发.分叉.(由于最初质点有可能落在边界值上,此时有可能会出现过拟合的问题. 二.SVM  svm是除深度学习在深度学习出现之前最好的分类算法了.它的特征如下: ...

  2. 【Python】实训6:基于wine和wine_quality数据集练习sklearn构建模型方法(预处理、聚类、分类、回归)

    题目来源: <Python数据分析与应用>第6章 使用 scikit-learn 构建模型 实训部分 [ 黄红梅.张良均主编 中国工信出版集团和人民邮电出版社] 本博客题目文字主要来自: ...

  3. 【机器学习】sklearn数据集获取、分割、分类和回归

    sklearn数据集 1.数据集划分 1.1 获取数据 1.2 获取数据返回的类型 举个栗子: 1.3 对数据集进行分割 举个栗子: 2. sklearn分类数据集 3. sklearn回归数据集 1 ...

  4. python/sklearn 生成分类、回归的数据

    使用sklearn.datasets这个工具即可 from sklearn.datasets import make_regression, make_classification# 生成回归数据,1 ...

  5. sklearn自学指南(part22)--支持向量机的分类与回归

    学习笔记,仅供参考,有错必纠 文章目录 支持向量机 分类 多分类问题 分数和概率 不平衡的问题 回归 密度估计,新颖性检测 复杂性 支持向量机 支持向量机(SVM)是一组用于分类.回归和异常检测的有监 ...

  6. 如何用Python处理分类和回归问题?附方法和代码

    编译 | AI科技大本营 参与 | 王柯凝 编辑 | 明明 [AI科技大本营导读]继马斯克的重型火箭猎鹰火箭(Falcon Heavy)发射成功后,营长的朋友圈被持续刷屏,虽然特斯拉Roadster飞 ...

  7. 15 分钟带你入门 sklearn 与机器学习(分类算法篇)

    众所周知,Scikit-learn(以前称为scikits.learn)是一个用于Python编程语言的免费软件机器学习库.它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度增强,k-me ...

  8. Sklearn 损失函数如何应用到_15 分钟带你入门 sklearn 与机器学习(分类算法篇)...

    众所周知,Scikit-learn(以前称为scikits.learn)是一个用于Python编程语言的免费软件机器学习库.它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度增强,k-me ...

  9. python机器学习库xgboost——xgboost算法(有分类和回归实例)

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 docker/kubernetes入门视频教程 全栈工程师开发手册 (作者:栾鹏) pyth ...

最新文章

  1. leetcode-24 两两交换链表中的节点
  2. Mdnice 简洁主题
  3. JaveWeb 公司项目(4)----- Easyui的表单验证
  4. python一般用来开发什么-python主要用来做什么?Python开发简单吗?
  5. 最新的推荐系统论文两篇
  6. idea报错 电脑死机蓝屏
  7. phpMyAdmin 配置
  8. oracle两种导出导入方式,即imp与impdp之比较
  9. OCF 试图为物联网建立标准,但它面临着不小的挑战
  10. 解决Hibernate4执行update操作,不更新数据的问题
  11. Python数据结构与算法(2.7)——跳表
  12. 谈谈BFC与ie特有属性hasLayout
  13. java教学视频_孔浩老师_孔浩老师JAVA WebService教程
  14. mysql数据比较工具_mysql主从数据对比工具简介
  15. 百度统计、谷歌统计原理以及自定义统计源码
  16. 一文读懂JPEG算法!附C++代码实现JPEG算法,实现从BMP到JPEG转换!
  17. 他是学计算机的这个句子中宾语是动词性的,《现代汉语语法修辞》 综合试卷有全部答案...
  18. 【AI Studio】飞桨图像分类零基础训练营 - 03 - 卷积神经网络基础
  19. CSS表格和设置表格样式
  20. 人行征信2.0对接服务:全业务种类数据,精细您的征信业务管理!

热门文章

  1. 【已解决】Could not find resource jdbc.properties
  2. 【解决办法】你目前是以 ***的身份登录。请注销,然后使用你用于阅读组织电子邮件的帐户登录 Outlook
  3. 12行代码AC——UVa 151 - Power Crisis(约瑟夫环)
  4. pcb设计实战与应用智能手机_机构强烈推荐+突破临界点+全球第一大PCB厂商=鹏鼎控股...
  5. 华为S5700系列交换机配置文件导出、导入
  6. eclipse中的WEB项目打包部署到tomcat .
  7. java mapper control_java spring boot中怎么编写mapper?怎么编写service和controller?
  8. .dat文件写入byte类型数组_《计算机导论》课程实验报告(文件)
  9. python legb_理解 Python 的 LEGB.
  10. python bs4模块_python爬虫之Beautifulsoup模块用法详解