内容架构:

第一部分:简单线性回归

第二部分:如何用逻辑回归分类

第三部分:kaggle和泰坦尼克号预测

第一部分:简单线性回归

一、机器学习(Machine Learning, ML)

是机器学习算法来建立模型,当有新的数据过来的,通过模型可以进行预测,是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

方向:数据分析——机器学习——深度学习

二、人工智能、机器学习和深度学习三者之间的关系

机器学习是实现人工智能 的一种技术,而深度学习是机器学习中的一种算法。

三、机器学习的步骤

1、 提出问题:解决生活或工作中的实际问题,明确目标

2、 理解数据:(1)采集数据;(2)导入数据 ;(3)查看信息数据,理解数据

3、 数据清洗:数据预处理、整容

4、 构建模型:机器学习算法

5、 评估:进行评估,评估准确性和预测效果

四、什么是特征、标签?

  • 特征:数据属性(如歌曲的节奏、强度、时长等),描述数据的特征。
  • 标签:数据的预测结果(歌曲的喜欢与不喜欢

五、Python机器学习包:sklearn(scikit-learn)

  • 当碰到某个算法时,带着目的直接搜索和引用,不需要去背去记。
  • 调查研究显示:对自己的工作没有支配能力的人比拥有决策者的人死亡率更高
  • 安装命令: conda install scikit-learn

六、简单线性回归:研究不同变量的相关性分析

用来预测应变量的一个或多个变量成为自变量,将预测的变量称为应变量,应变量和自变量之间的关系可以用一条直线近似的表示,这种回归称为简单线性回归。接下来将以学生花费学习时间的长短与学习成绩为例,进行简单线性回归分析。

1、 选取数据集(训练数据)

(1)三种线性相关性

a、正线性相关:直线朝上

b、负线性相关:直线朝下

c、不是线性相关:随机模式(两个变量不成线性相关,但有其他相关),也许有曲线相关等。

(2)衡量变量的线性相关性程度:协方差

满足:

正负数来衡量正负相关性

数值大小衡量相关性程度

将运动的所有的点相加

(3)运用协方差来判断两个变量间的相关性程度

E是期望,当数据点出现的概率都相同时,这里的期望等于数据集的总体的平均值

协方差的缺点:受变量变化幅度的影响较大

(4)相关系数:解决协方差的不足(相关系数是标准化后的协方差,消除了两个变量变化幅度的影响,单纯反映两个变量每单位变化的相似程度)。

标准差是衡量变化幅度的系数

r=0,代表可能是其他相关。r的绝对值越大,表明两个变量的相关关系越大,不是因果关系。

什么是最佳拟合线?——线性回归的本质

回归方程Y=a+bX(a为截距,b为回归系数)

(2)建立训练数据和测试数据

(3)建立训练模型

(4)最佳拟合线

回归方程Y=a+bX(a为截距,b为回归系数)

此处应注意下划线

(5)评估模型的精确度

(6)计算决定系数R平方

七、两种关系

识别相关关系和因果关系

相关关系不等于因果关系

事情的发生是一个复杂系统,多因素造成

研究发现相关关系,再进一步找原因发现因果关系

第二部分:如何用逻辑回归分类

1、 特征和标签

特征(features):数据属性、特点(如歌曲的节奏、强度、时长等)

标签(labes):数据的预测结果

2、 训练数据和测试数据分别用来做什么

(1) 训练数据(train):建立机器学习模型

(2) 测试数据(test):验证模型的正确率

3、 什么是分类问题?

(1) 本质是决策面

(2) 评估分类算法的指标,正确率=正确分类个数/总数

4、 什么是逻辑回归(应该叫逻辑分类更合理)? ——分类算法

(1) 逻辑回归用于二分分类问题(分类结果标签只有2个,比如:喜欢?不喜欢?)

(2) 逻辑函数(sigmoid function/Logistic
funcyion)

5、 逻辑回归-Python实现

(1) 建立训练数据和测试数据sklearn的tarin_test_split

(2) 逻辑回归:sklearn的logisticRegression

6、举例,比如几首我们熟悉的歌曲

逻辑回归就是二分分类:逻辑分类只有2个,比如喜欢、不喜欢;0和1;通过与不通过。

不是回归算法,是分类算法

y的值是0-1之间

逻辑函数y表示当分类结果标签等于1时,x对应的概率值

当学生学习的时间是2时,学生通过考试的概率是0.25

决策面

决策面的规则:如果逻辑函数得到的概率值y大于等于0.5,那么特征等于1,如果小于0.5,特征Y=0

7、三种数据类型

1、 数值数据(定量数据,,比如温度、金钱)

  • (1) 离散数据(正反面,;数据可以跳来跳去,有间隔)
  • (2) 连续数据(某个范围内可以取任意数据,如时间)

2、 分类数据(定性数据,是对事物进行描述的信息,如男性和女性,不能加总和取平均值)

3、 时间序列数据:一段时间内收集内定期收集的时间序列

8、分类与回归的区别

第三部分:kaggle和泰坦尼克号预测

机器学习的算法是把人的决策思考的过程抽象成一个模型,用数学的方法给这个模型找到最优化的解。然后用代码把最优解,变成机器可以执行的命令,最终完成一个机器大脑的构建,所以,算法是人对于一个特定事情的理解,被转化成机器可以理解和执行的模型和代码,这个模型和代码和人脑的不一样,在于最核心考海量数据不断学习来优化自己的决策。

大数据和算法的结合就是机器学习的本质,两者的结合产生了快速迭代和快速优化。

一、机器学习的步骤

1、 提出问题

2、 理解数据

3、 清洗数据

4、 构建模型:用训练数据来构建模型

5、 模型评估:用测试数据来评估模型

6、 方案实施:将分析结果和预测结果进行数据可视化

二、泰坦尼克号案例

1、 提出问题

什么样的人在泰坦尼克号中更容易存活?

2.理解数据

2.1 采集数据¶

从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic

2.2导入数据

2.3 查看数据集信息

船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%

3.数据清洗(Data Preparation )

3.1 数据预处理

缺失值处理

在前面,理解数据阶段,我们发现数据总共有1309行。 其中数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据。 字符串列:登船港口(Embarked)、船舱号(Cabin)里面有缺失数据。

这为我们下一步数据清洗指明了方向,只有知道哪些数据缺失数据,我们才能有针对性的处理。

很多机器学习算法为了训练模型,要求所传入的特征中不能有空值。

(1)如果是数值类型,用平均值取代

(2)如果是分类数据,用最常见的类别取代

(3)使用模型预测缺失值,例如:K-NN

3.2 特征提取¶

3.2.1数据分类

查看数据类型,分为3种数据类型。并对类别数据处理:用数值代替类别,并进行One-hot编码

1.数值类型:直接使用

乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)

2.时间序列:无

3.分类数据:

1)有直接类别的:

乘客性别(Sex):男性male,女性female

登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国
瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown

客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

2)字符串类型:可能从这里面提取出特征来,也归到分类数据中

乘客姓名(Name)

客舱号(Cabin)

船票编号(Ticket)

3.2.1 分类数据:有直接类别的

乘客性别(Sex): 男性male,女性female

登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国
瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown

客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

4.构建模型¶

用训练数据和某个机器学习算法得到机器学习模型,用测试数据评估模型

4.1 建立训练数据集和测试数据集

4.2 选择机器学习算法

选择一个机器学习算法,用于模型的训练。

4.3 训练模型

5.评估模型

sklearn 相关性分析_人工智能和大数据的骨架支点—— 机器学习之相关性分析相关推荐

  1. 转岗前景分析:人工智能、大数据开发是未来高薪的趋势?

    /   转岗原因分析   / 相信有不少人在从事某个行业一定时间之后都有过想要转岗的想法,或许是薪资达不到心理预期,或者是技术上遇到瓶颈等等等等.下面我们来梳理一下一个人工作一段时间后,为什么想要转岗 ...

  2. python人工智能大数据_人工智能及大数据中的Python

    2016年,Python取代Java成为高校中最受欢迎的语言.2018年三大语言榜单中,Python陆续登上了IEEE.PYPL排行榜单之首.薪酬调查结果显示,Python开发人员是收入最高的开发人员 ...

  3. 人工智能、大数据、云计算、机器学习和深度学习,主要有什么关系?

    这些概念是当下的热点,它们本身并不复杂.相信我的回答能让你对这些概念以及它们之间的联系有一个清晰的了解. 我的主要研究方向是大数据和人工智能,所以机器学习.深度学习.云计算等技术也都接触过.这些概念之 ...

  4. a人工智能b大数据c云计算_你清楚5G物联网、大数据、云计算、人工智能之间的关联吗?...

    同属于高新技术发展领域的物联网.大数据.云计算.人工智能之间有着割舍不开的联系,成其一都离不开其他技术的支撑辅佐,特别是落地应用的时候,在不同的场景中,这个几个技术之间不同的方式配合,成就了现如今的高 ...

  5. 大数据学情分析_大数据时代如何轻松做好学情分析

    学情分析是运用现代教学设计理论产生的,是教学设计系统中影响学习系统最终设计的重要因素之一.学情分析通常被称为"教学目标分析"或"学生分析".研究学生的实际需要. ...

  6. 人工智能与大数据就业前景_学大数据和人工智能哪个方向好?

    学大数据和人工智能哪个方向好?大数据和人工智能都是当前的热门技术行业,我认为两个发展前景都不错,并没有伯仲之分,因为两个技术都是相互依赖的,具体学习哪一个主要还看你个人的情况,比较大数据和人工智能技术 ...

  7. 2018年关于人工智能、大数据和分析的十大预测

    人工智能已经流行了很长一段时间.但据预测,随着新年的到来,人工智能.大数据和分析等最新技术需要做出改进,以提供更好的性能.升级后的界面还将有助于增强机器与人的协作.企业将获得巨大的收益,因为资源将被转 ...

  8. 最新人工智能、大数据与复杂系统一月特训班_机器学习入门到精通

    课程简介:从Alpha-GO到无人驾驶,人工智能AI结合大数据发挥出惊人功效的场景越来越多.如何从零开始真正入门这个领域?人工智能.大数据与复杂系统一月特训班可以帮到您! 混沌巡洋舰讲师团 来自巴黎高 ...

  9. 支付宝技术专家李战斌:安防视频行为分析系统的技术演进及应用场景 | 2018FMI人工智能与大数据高峰论坛(深圳站)

    10月28日FMI 2018人工智能与大数据高峰论坛深圳场圆满落幕,支付宝技术专家李战斌以安防视频行为分析系统的技术演进及应用场景为主题进行了精彩的分享. 支付宝技术专家李战斌 以下是李战斌的演讲内容 ...

最新文章

  1. CC2540获取本机MAC地址
  2. js字符串的字典序_JavaScript通过字典进行字符串翻译转换的方法
  3. java版spring cloud+spring boot+redis社交电子商务平台(八)消息总线(Spring Cloud Bus)
  4. pyqt5从子目录加载qrc文件_实战PyQt5: 045-添加资源文件
  5. vs2012 vc++控制台程序 配置成64位
  6. rsa 公 填充模式的_RSA加密的填充模式
  7. 一文把三个经典求和问题吃的透透滴。
  8. 读完 Effective Java,我整理这 59 条技巧!
  9. 谈一下UI框架经常看到Vue的.sync修饰符
  10. 通信算法工程师调研整理
  11. 基于 MPC 控制算法的自适应巡航系统的研究
  12. Oracle彻底卸载干净教程
  13. freemarker的recurse示例代码
  14. 用C++做的文本分割器(就是黑乎乎的那个)
  15. BZOJ_4199_[Noi2015]品酒大会_后缀自动机
  16. 第四届“橙瓜网络文学奖”暨见证·网络文学20年评选分类型十佳大神网上投票震撼开启
  17. AndroidX ,support支持包
  18. IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学
  19. 第十七章 Spark开发调优原则详述(图解+代码实战)
  20. 创建输入控件(input控件、文本框、密码框、单项选择、多项选择、重置与提交按钮的设置)

热门文章

  1. vuex-along解决vuex中存储的数据在页面刷新之后失去的问题
  2. requests安装及问题解决
  3. python生日贺卡制作以及细节问题的解决最后把python项目发布为exe可执行程序过程
  4. curl提示不支持https协议解决方法
  5. mysql删除有外链索引数据,Cannot delete or update a parent row: a foreign key constraint fails 问题的解决办法
  6. intellij idea的TFS拉取项目文件不完全、文件误删恢复、TFS忽略文件解决方法
  7. 在Heroku上创建node.js应用程序时,我应该将node_modules检入git吗?
  8. 什么是__pycache__?
  9. 如何解决Spring Data Maven构建的“生命周期配置未涵盖的插件执行”
  10. 安装sql server 2016 always on配置dtc支持时遇到的问题