文章目录

  • 前言 流程概述
  • 1. 数据获取
  • 2. 数据准备(预处理&规整化)
  • 3. 探索性数据分析(Exploratory Data Analysis,EDA)
  • 4. 模型化
  • 5. 部署与评估

前言 流程概述


1. 数据获取

  • 数据科学的关键步骤
  • 获取数据有多中可行方式
    • 直接获取:数据库、磁盘、网络文件
    • 间接获取:使用爬虫从HTML网页爬取、通过web API获取数据
  • 获取数据送入计算机内存,进行后续处理

2. 数据准备(预处理&规整化)

1.针对问题:
获取的数据不可避免的会遇到数据有缺失、数据冗余、数据格式不合适等问题。

  • 填充缺失值
  • 删除重复数据
  • 数据内容与格式清洗
  • 数据转换(标准化、离散化)
  • 数据集合并

2.目的:

  • 为数据科学的下一阶段提供典型的数据矩阵

3. 探索性数据分析(Exploratory Data Analysis,EDA)

1.针对问题:
在开始对数据进行分析时,对数据中隐含的特征等是未知的。

  • 数据集的规模
  • 特征的类型
  • 变量的分布
  • 变量间的关系
  • 数据集的其它特点

2.目的:

  • 穿过数据的表象去探求数据中隐含的意义。
  • EDA可以使我们更好的理解数据,发现数据中的细微差别和隐藏模式,制订建模策略。

4. 模型化

机器学习(Machine Learning) 利用“数据”训练出“模型”的算法,然后使用模型进行预测。

5. 部署与评估

部署开发的模型,并且建立持续的检测机制,观察他们在现实世界中的变现并据此进行校准和优化。


希望能够对你有所帮助。

【数据科学】01 数据科学概述相关推荐

  1. 01.数据科学的简单介绍(概论)

    前言:文章基于人大的<数据科学概论>,主要是总结第一章-数据科学概论 的一些重点内容.里面有些比较细的概念,有心的读者可以自己去查找资料. 文章目录 1.1数据科学的定义 (1)数据科学 ...

  2. 【数据科学】数据治理与数据认责概述

    一.本文预期读者: • 企业领导 • 各主要业务部门领导 • 技术执行管理人员:在客户数据治理路线规划.设计和实施当中,需要资 深的管理人员支持. • 数据管理相关部门:负责客户数据管理和监管报送相关 ...

  3. 大数据 vr csdn_VR中的数据可视化如何革命化科学

    大数据 vr csdn Astronomy has become a big data discipline, and the ever growing databases in modern ast ...

  4. r怎么对两组数据统计检验_数据科学中最常用的统计检验是什么

    r怎么对两组数据统计检验 Business analytics and data science is a convergence of many fields of expertise. Profe ...

  5. 大数据数据科学家常用面试题_面试有关数据科学,数据理解和准备的问答

    大数据数据科学家常用面试题 问题1:在数据科学术语中,您如何称呼所分析的数据? (Q1: In the data science terminology, how do you call the da ...

  6. 【数据科学】数据科学家犯下的13个常见错误以及如何避免这些错误

    介绍 所以你已经决定数据科学是适合你的领域.越来越多的企业正在变得数据化,世界变得越来越紧密,看起来每个企业都需要数据科学实践.因此,对数据科学家的需求是巨大的.更好的是,每个人都承认行业人才短缺. ...

  7. 生命科学数据与互联网数据一样已被公认为大数据

    生物信息学是一个前沿交叉学科,通过应用计算机和计算技术研究生物学和医学问题,研究手段包括计算机科学与技术.统计学.数学.物理学等多个方面. 由于核酸序列数据以及其它生物数据的增长一直呈现指数增长趋势, ...

  8. 独家 | 展望未来:数据科学、数据工程及技术(附链接)

    作者:SeattleDataGuy (Zack Shapiro)翻译:殷之涵 校对:欧阳锦本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数 ...

  9. 贝叶斯网络之父Judea Pearl:新因果科学与数据科学、人工智能的思考

    来源:AI科技评论 本文约6000字,建议阅读10分钟 本文介绍贝叶斯网络之父 Judea Pearl <新因果科学与数据科学.人工智能的思考>的报告. 标签:人工智能 6月21日,图灵奖 ...

最新文章

  1. 在CentOS 6.8 x86_64上利用devtoolset搭建GCC 4.9.2和5.3.1开发环境
  2. git在不同操作系统下自动替换换行符
  3. 智源青年科学家林乾:揭开人工智能的黑匣,从解答最基本的问题开始
  4. 哈工大计算机专业去哪里工作,想读计算机专业,哈工深和华科应该选择哪个?...
  5. 皮一皮:打完疫苗千万别睡太死...
  6. 鸿蒙手机系统开发大会,鸿蒙OS+EMUI10,华为开发者大会的创新与看点
  7. 7805输入电流有要求吗_PLC输入输出接线全解析,值得收藏!
  8. 同步锁ReentrantLock
  9. 在hadoop/hbase等代码中kinit
  10. 20135220谈愈敏Linux Book_3
  11. android开发出现的错误,android 开发 错误集锦
  12. 数据库服务器主机重启故障诊断分析
  13. Linux下samba服务器的搭建与配置
  14. 蒙哥马利java算法_算法详解 - 蒙哥马利算法的概念与原理
  15. 转载——python字符串常用操作(加案例)
  16. Bex5开发技巧之如何在列表中显示主键字段
  17. 矩阵公式(转置公式+求导公式)
  18. python写数据到hive_Python数据篇之Pyhive
  19. 在CRA中自定义webpack
  20. 基于反馈的动态补偿模型

热门文章

  1. 一文弄懂Batch Norm / Layer Norm / Instance Norm / Group Norm 归一化方法
  2. 70、android 查看当前显示activity方式
  3. 机电一体化c语言程序设计,高职机电一体化C语言程序设计研究
  4. java excel 设置列为日期,POI - 如何将单元格值设置为日期并应用默认Excel日期格式?...
  5. java开发中购物车问题,困扰一天的购物车有关问题
  6. 评分卡:WOE、IV、PSI计算及ROC和KS曲线
  7. python-office的使用
  8. 美国虚拟PSTN号码
  9. 放不下的原理_想要彻底忘记一个人,明白“洛克定律”的真实原理就可以
  10. 【python】Algorithm