ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

目录

数据科学的任务(数据分析、特征工程、科学预测等)的简介

数据科学的任务(数据分析、特征工程、科学预测等)的流程

1、处理数据科学任务的一般流程

2、数据分析

数据科学的任务(数据分析、特征工程、科学预测等)的案例应用


数据科学的任务(数据分析、特征工程、科学预测等)的简介

数据科学在20世纪60年代已被提出,只是当时并未获得学术界的注意和认可,1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。

随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。数据量的增大和数据的多样化也促进了美国很多公司,进行数据分析来支持商务决策(data driven decision making)。

        数据科学是一个多学科领域,专注于从大量原始和结构化数据中找到切实可行的见解该领域主要注重发掘我们没有意识到我们还不清楚的事情的答案。数据科学专家使用几种不同的技术来获得答案,包括计算机科学,预测分析,统计学和机器学习,通过海量数据集进行解析,努力为尚未被认识到的问题提供解决方案。
       数据科学家的主要目标是找出问题并找出潜在的研究途径,而不用担心具体的答案,更多的重点放在寻找正确的问题上。专家通过预测潜在趋势,探索不同和不相关的数据来源,并找到更好的分析信息的方式来实现这一点。

1、数据科学专业必备能力

  • 计算机能力:一般来说,数据科学专业大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
  • 数学、统计、数据挖掘的能力:除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。
  • 数据可视化:信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

2、数据科学知识体系

数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。

数据科学的任务(数据分析、特征工程、科学预测等)的流程

1、处理数据科学任务的一般流程

2、数据分析

Py之matplotlib&seaborn :matplotlib&seaborn绘图的高级进阶之高级图可视化(基础图(直方图等),箱型图、密度图、小提琴图等)简介、案例应用之详细攻略

(1)、对数据进行探索性的分析,可视化工具包:pandas、matplothb/seaborn

Python语言学习之图表可视化:python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略

(2)、初步把握数据:读取训练数据,取少量样本进行观测,并查看数据规模和数据类型。
— 标签、特征意义、特征类型等

(3)、单个特征分析:分析每列特征的分布。
— 直方图 
— 包括标签列(对分类问题,可看出类别样本是否均衡)
— 检测奇异点(outliers )

(4)、多个特征之间相关性分析:分析每两列特征之间的相关性 。
— 特征与特征之间信息是否冗余
— 特征与标签是否线性相关

(5)、特征工程

数据科学的任务(数据分析、特征工程、科学预测等)的案例应用

ML之二分类预测:以某个数据集为例从0到1深入理解科学预测之分类问题的思路框架
ML之多分类预测:以某个数据集为例从0到1深入理解科学预测之多分类问题的思路框架
ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值评分预测)问题的思路框架

ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略相关推荐

  1. ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略

    ML:机器学习模型提效之监督学习中概率校准的简介.案例应用之详细攻略 目录 监督学习中概率校准的简介 监督学习中概率校准的概述 监督

  2. ML之VC维:VC维(Vapnik-Chervonenkis Dimension)理论的概述(衡量模型复杂度和预测能力的指标)的简介、案例理解之详细攻略

    ML之VC维:VC维(Vapnik-Chervonenkis Dimension)理论的概述(衡量模型复杂度和预测能力的指标)的简介.案例理解之详细攻略 目录 VC维(Vapnik-Chervonen ...

  3. ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

    ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...

  4. VB.net:VB.net编程语言学习之基于VS软件利用VB.net语言实现对SolidWorks进行二次开发的简介、案例应用之详细攻略

    VB.net:VB.net编程语言学习之基于VS软件利用VB.net语言实现对SolidWorks进行二次开发的简介.案例应用之详细攻略 目录 调用SolidWorks功能简介 1.宏录制步骤 (1) ...

  5. Python:Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略

    Python:Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3)).安装.学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略 ...

  6. Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略

    目录 Python语言的简介 1.Python的应用领域 2.Python语言特点.对比其它语言 2.1.Python语言特点 2.2.Python语言对比其它语言 3.Python版本语言兼容问题( ...

  7. ML:机器学习算法中—因子模型(多变量)、时序模型/时间序列模型(主要以单变量)算法对比的简介、带有时序性的因子模型概述、案例应用之详细攻略

    ML:机器学习算法中-因子模型(多变量).时序模型/时间序列模型(主要以单变量)算法对比的简介.带有时序性的因子模型概述.案例应用之详细攻略 目录 因子模型和时序模型/时间序列模型算法的简介 1.因子 ...

  8. ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——基础篇

    ML与math:机器学习与高等数学基础概念.代码实现.案例应用之详细攻略--基础篇 目录 一.ML与高等数学 0.基础数学 1.导数.方向导数.梯度 1.1.概念简介 1.2.代码实现 2.Taylo ...

  9. ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略

    ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介.使用方法.案例应用之详细攻略 目录 PSI(稳定度指标)的简介 1.如何计算PSI? (1).PSI计算过程

最新文章

  1. cocos2d-x游戏实例(19)-纵版射击游戏(6)
  2. PX4的workqueue
  3. 张正友相机标定Opencv实现以及标定流程标定结果评价图像矫正流程解析(附标定程序和棋盘图)
  4. 杭州湾跨海大桥视频上云,夯实智慧高速“云基建
  5. CSocket,CAsyncSocket多线程退出时的一些注意事项(解决关闭WinSoket崩溃的问题)
  6. C# DllImport用法和路径问题
  7. python3.3.2_Python代码2转3、3转2的方法
  8. 网络学习(六)Windows XP系统之ghost安装
  9. 滨州智能dcs系统推荐_FM163E和利时DCS组件系统滨州
  10. 微信安装包11年膨胀575倍,UP主:“98%的文件是垃圾”;苹果应用商店被曝大量色情App;四大科技巨头呼吁废除闰秒|极客头条
  11. 万能批处理工具包最终版
  12. java中的方法重载
  13. 学豆网学计算机,出题优学生版电脑版
  14. 源码解析 深入vue响应式原理
  15. FinalShell连接超时解决方法
  16. Python笔记_第四篇_高阶编程_再议装饰器和再议内置函数
  17. openstack虚拟机的热迁移和疏散
  18. AI不思议|除了猜用户手绘图案,还能猜什么?
  19. [转]将106键盘布局(日式键盘布局)改为101键盘布局(美式键盘布局)(
  20. electron与jquery起冲突,使用jquery报错解决方法

热门文章

  1. 用python模拟三体运动_怎么用Python写一个三体的气候模拟程序
  2. python关闭csv文件_使用Python编辑csv文件时跳过标题
  3. 阿里研发支出连续三年登顶; 《MIT科技评论》为阿里AI语音技术点赞;达摩院引入以色列著名计算机视觉科学家 | 周博通...
  4. React总结篇之十_动画
  5. Cesium源码编译过程
  6. 使用spinner 做下拉对话框
  7. windows中search driver的顺序
  8. String 字符串最长可以有多长?
  9. 程序员应该如何自我驱动,迅速获得成长?
  10. Spring Cloud构建微服务架构:服务注册与发现(Eureka、Consul)【Dalston版】