Python之(scikit-learn)机器学习
一、机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
简而言之,机器学习就是通过一系列变种的数据公式,通过大量的数据推导,得出的接近于满足数据点的一个公式(f(x) = w1x1 + w2x2^2 + w3x3^3 + ...),然后需要推测的新数据,通过该公式来得出预测的结果。
记住上面这个图,他是后续选择算法的规则,也是核心。
二、scikit-learn(简记sklearn
),是用python
实现的机器学习算法库。sklearn
可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。sklearn
是基于NumPy
, matplotlib,
而形成的。SciPy
scikit-learn的强大主要是它提供了很多算法库,以及数据处理的方式,学习scikit-learn很大程度上可以了解机器学习的实现、训练、预测过程。
三、在开始scikit-learn之前,我们先了解机器学习的流程:
1、原始数据:原始数据可以是很多种形式(比如:图片,json,文本,table等),这些数据可以通过pandas来加载成一个二维数组的数据。也可以通过numpy的方式生成数据。
数据来源一般通过kaggle官方获取,地址:https://www.kaggle.com/
2、数据处理:得到原始数据过后,我们需要对数据进行处理(比如:数据分割(训练集、测试集),构造特征(比如:时间(年份一样,月份、天构造新的特征)),删除特征(没有用的,但是存在影响的特征)等)
3、特征工程:在数据进行处理过后,我们不能盲目的使用该数据(比如:文本数据,数值差异过大的数据),这个时候就要转换数据(转换器)。转换器:字典特征、文本特征、tf_idf(数据出现频次)、归一化、标准化、降维等,然后得出提取特征后的矩阵数据。
4、算法模型:(核心)主要分为监督学习和无监督学习。机器学习的核心就是算法模型。
监督学习:有特征值,目标值(有标准答案)。常有算法为分类算法(离散型(具体的分类标准))、回归算法(连续型(预测值))
无监督学习:只有特征值。常有算法为聚类。
模型:数据在训练集和测试集上面,反复的训练过后,会得出最接近满足所有数据点的公式也称为模型,这个也是后续用于其他业务数据用于分类或者预测的基础。
5、算法评估:分类模型:一般是通过准确率、精准率、召回率、混淆矩阵、AUC来确认模型的准确度,回归模型:一般是通过均方误差的方式来确认准确度。
四、通过第三点的大致介绍,基本可以了解机器学习需要掌握的知识量还是不小的。特别是很多概念,需要自己去理解。下面主要是讲具体的过程和部分原理。(注意:算法是核心会放到最后讲)
(1)Python之原始数据-1
(2)Python之数据处理-2
(3)Python之特征工程-3
(4)Python之算法评估-4
(5)Python之算法模型-5.1
(6)Python之网格搜索与检查验证-5.2
(7)Python之模型的保存和加载-5.3
五、源码:https://github.com/lilin409546297/scikit_learn_demo
六、数据下载地址:
k_near/train.csv:https://www.kaggle.com/c/facebook-v-predicting-check-ins/data
decision_tree/titanic.csv:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
market/orders.csv、order_products__prior.csv、products.csv、market/aisles.csv:https://www.kaggle.com/psparks/instacart-market-basket-analysis
classify_regression/breast-cancer-wisconsin.data:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
转载于:https://www.cnblogs.com/ll409546297/p/11211997.html
Python之(scikit-learn)机器学习相关推荐
- 【scikit-learn】如何用Python和SciKit Learn 0.18实现神经网络
本教程的代码和数据来自于 Springboard 的博客教程.本文的作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:https://g ...
- [转载]Scikit Learn: 在python中机器学习
原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...
- Scikit Learn: 在python中机器学习
Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...
- 机器学习与Scikit Learn学习库
摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...
- python scikit learn 关闭开源_scikit learn 里没有神经网络?
本教程的代码和数据来自于 Springboard 的博客教程,希望能为你提供帮助.作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:ht ...
- python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别
之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...
- python计算均方根误差_如何在Python中创建线性回归机器学习模型?「入门篇」
线性回归和逻辑回归是当今很受欢迎的两种机器学习模型. 本文将教你如何使用 scikit-learn 库在Python中创建.训练和测试你的第一个线性.逻辑回归机器学习模型,本文适合大部分的新人小白. ...
- r语言和python的区别_机器学习怎样开始比较好?Python还是R语言?
全文共3077字,预计学习时长11分钟 图源:unsplash 机器学习是近几年来最热门的技术之一,也许你对机器学习很感兴趣,但却不知从何处下手.别担心,兴趣是最好的老师这里有你开启该领域职业生涯的完 ...
- python scikit_Python SciKit学习教程
python scikit Scikit学习 (Scikit Learn) Scikit-learn is a machine learning library for Python. It feat ...
- k近邻算法python解读_Python3《机器学习实战》学习笔记(一):k-近邻算法(史诗级干货长文)...
运行平台: Windows IDE: Sublime text3 一.简单k-近邻算法 本文将从k-近邻 1.k-近邻法简介 k近邻法(k-nearest neighbor, k-NN)是1967年由 ...
最新文章
- 【响应式Web前端设计】CSS 定位详解
- 主数据、业务数据、控制数据
- python 单线程_python的单线程多任务的实现
- The Security Learning
- ubuntu没有声音-只有类比立体声输入
- Java 集合之自动打包和解包以及泛型
- Ubuntu 16.04 下octave的使用入门
- 大工20秋计算机组成原理在线作业2,大工14秋《计算机组成原理》在线作业2答案...
- uint16 累加_如何把一个uint16整数分解成两个字节并传输?
- ASP.NET HyperLink控件NavigateUrl中用到DataBinder.Eval时
- 《天天数学》连载37:二月六日
- java的观察模式链式,design-pattern-java
- c#目录以及子目录下图片批量缩放,像素不变,图像大小改变
- vs 如何将源文件转换成可执行文件_如何将图片文件转换成PDF文件?
- jenkins 忘记密码或认证配置出错后解决办法
- 高级数据结构及应用 —— 使用 bitmap 进行字符串去重
- 计算机组成原理数据通路实验报告,数据通路组成实验汇总_相关文章专题_写写帮文库...
- 均衡发展计算机教室解说词,均衡发展图书室解说词|小学图书室解说词开场白范文推荐...
- centos网卡配置
- 计算机表格复制粘贴,表格之间无法复制粘贴怎么办_两个EXCEL表格为什么不能复制和粘贴-win7之家...
热门文章
- ubuntu下dbus工具d-feet不显示路径和接口
- D-feet的安装与使用
- html编码器是什么意思,编码器是什么意思
- 什么是现汇买入价、现钞买入价、卖…
- 聚光灯效应:为什么没有人记得你做过什么
- 编译小程序,开发者工具打开报错Cannot read property ‘createTextNode‘ of undefined或iphone机型无法预览
- CityEngine -- Coordinate
- Maven异常:0.0.1-SNAPSHOT: Could not find artifact
- linux 命令 tr 详解
- 第11章 枚举与泛型总结