1. 与数据科学有关的相关学科包括:数据库(Database)数据挖掘(Data Mining)机器学习(Machine Learning)模式识别(Pattern Recognition)数据科学导论(Data Science)等。

其中,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学更重视理论研究,因此,统计学提供的许多技术通常都要在机器学习界进一步研究,编程有效的机器学习算法后,进入数据挖掘领域。机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行再改造,使得算法性能和空间占用都达到实用的地步。同时,数据挖掘还有自身独特的内容,及关联分析。数据挖掘重在发现知识,模式识别重在认识事物。机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器学习是方法,模式识别是目的。

2. 数据科学的组成

· 计算机技巧        · 数学和统计知识         · 实质性的专业知识

数据科学知识图:

由上到下依次为:介绍、数据科学的处理过程、基本分析工具(weka 、 R 、 python)、分析方法、工程技术工具、实验和结果交付

3.数据科学中的三个重要技能:

1. 计算机能力:数据的获取和整理

· 数据整理

· 大规模数据

· 存储数据只是数据平台建设的一部分

2.数学和统计学能力:数据的挖掘

· 机器学习是另一项必不可少的工具

· 统计是“数据科学的语法”

· 一个不可或缺的语言工具(R 或 Python)

3. 图形可视化:数据的提炼和展现

· 展现的不仅仅是结果,还包括贯穿过程的分析过程可视化、挖掘结果可视化等。

· why可视化: 对于人来说,知识最重要。而人类最容易学习到的知识就是图形。

大数据分析:数据稀疏度高、善于处理不完整的数据

数据处理:多源异构交叉分析

得到结果:数据说明了什么

数据量:海量

4.大数据的数据源

大数据包括:交易数据和交互数据集在内的所有数据集

大数据 = 海量数据 + 复杂类型的数据

· 海量交易数据:企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通古关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们可以了解到过去发生了什么

· 海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件和传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。可以告诉我们未来会发生什么

· 海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop

· 大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商

· 现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统

· 终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系

即 文字作为数据、位置作为数据、沟通作为数据、量化一切

5. 大数据是互联网及其延伸导致的“自然现象”

大数据源于 信息技术的不断廉价化 与 互联网及其延伸所带来的 无所不在的信息技术应用,源于 摩尔定律驱动的指数增长模式 ,源于 技术低成本驱动的万物数字化, 源于 宽带移动泛在互联驱动的人机物广泛链接, 源于 云计算模式驱动的数据大规模汇聚

6.大数据的定义

大数据的4个基本特征(4V):

数量(Volume),即数据巨大,从TB级别跃升到PB级别;

· 非结构化数据的 超大规模和增长

· 比结构化数据增长快10倍到50倍

· 是传统数据仓库的10倍到50倍

· 总数据量的80%~90%

多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;

· 大数据的异构和多样性

· 很多不同形式

· 无模式或者模式不明显

· 不连贯的语法或句义

价值密度(Value),即高质量的数据;

· 大量的不相关信息

· 对未来趋势和模式的可预测分析

· 深度复杂分析(机器学习、人工智能  /  传统商务智能(咨询、报告等))

速度(Velocity),即快速处理。2方面含义:数据增长速度快 、 数据处理速度快(实时)

· 实时分析而非批量式分析

· 数据输入、处理与丢弃

· 立竿见影而非事后奏效

价值密度低,是大数据的一个典型特征

能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。(如语义分析技术、图文转换技术、模式识别技术等)

对于数据处理速度而言,1s是临界点。对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。

实时处理的要求,是区别大数据引用和传统数据仓库技术、BI技术的关键差别之一。(BI技术:Business Intelligence 商业智能。使用基于事实的决策支持系统,来改善业务决策的一套理论与方法。数据仓库、OLAP和数据挖掘等技术的综合运用。)

大数据时代的思维变革:更多、更杂、更好。

更多:不是随机样本,而是全体数据

· 实现采样的随机性非常困难

· 随机采样的方法不适用于更深层次的细分领域情况

· 人们只能从采样数据中的初试线设计好的问题结果

· 小数据时代的随机采样,最少的数据获得最多的信息

· 全数据模式,样本 = 总体

更杂:不是精确性,而是混杂性

· 对小数据而言,最重要的要求是减少错误。而在大数据的采集里,在技术尚未到达完美无缺之前,混乱是不可避免的。虽然信息可能不完全准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得划算

· 允许不精确

· 大数据的简单算法比小数据的复杂算法更有效

· 纷繁的数据越多越好

· 混杂性,不是竭力避免,而是标准途径

更好:不是因果关系,而是相关关系

· 大数据时代最大的转变就是,放弃对因果关系的渴求,而转而关注相关关系。即只要知道“是什么”,而不需要知道“为什么”

· 大数据时代改变人们探索世界的方法

数据科学课程笔记1 --- 导论相关推荐

  1. 数据科学与大数据排名思考题_排名前5位的数据科学课程

    数据科学与大数据排名思考题 目录 (Table of Contents) Introduction介绍 Udemy乌迪米 Machine Learning A-Z™: Hands-On Python ...

  2. hahabet05-com:大数据与数据科学课程体系--哈哈电竞

    一. 大数据与数据科学专业 二. 大数据与数据科学培养的主要人才 大数据与数据科学主要培养大数据应用分析师.大数据系统工程师.大数据算法研究员几大类,猫先生官网登录搜hahabet每个大类下又可以根据 ...

  3. 2022年100个以上免费数据科学课程

    想成为数据科学家,你将面临一个艰巨的挑战.不仅要掌握机器学习等技术,还要学会商业分析.但是,回报也是丰厚的.此外,你还会解决许多有趣的问题,可以掌握新的.有影响力的技术. 本文分享了100个以上免费的 ...

  4. 顶尖高手2019_2019顶尖的在线数据科学课程

    顶尖高手2019 After over 80+ hours of watching course videos, doing quizzes and assignments, reading revi ...

  5. 互联网大数据公司排名_互联网上最好的数据科学课程,按照您的评论排名

    互联网大数据公司排名 by David Venturi 大卫·文图里(David Venturi) 互联网上最好的数据科学课程,按照您的评论排名 (The best Data Science cour ...

  6. 加州大学信息科学院长:数据科学课程不只是工程师才修的

    一般在考虑围绕数据科学的基础教育时,传统上的重点仍停留在计算和工程等硬性技能上.不过,在周四于纽约市召开的GigaOm结构数据(Structure Data)会议上,美国加州大学伯克利分校信息科学院长 ...

  7. 数据库初学者_面向初学者的免费6小时数据科学课程

    数据库初学者 Data science is considered the "sexiest job of the 21st century." Learn data scienc ...

  8. 北美+德国18所名校数据科学课程汇总

    转载自:http://www.itongji.cn/hao/courses.html [编者注]北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总,主要包括问答.相关课程.相关的研讨会.书籍 ...

  9. 数据科学库笔记(四)pandas

    文章目录 (一)什么是pandas (二) pandas安装 2.1 直接命令安装 2.2 下载pipy文件安装 (三)pandas的常用数据类型 3.1 pandas之Series创建 3.2 pa ...

最新文章

  1. 清除 Xcode 项目缓存
  2. 关于python2.7的md5加密遇到的问题(TypeError: Unicode-objects must be encoded before hashing)...
  3. 关于Spring 中的PortletModeHandlerMapping
  4. ITK:索引置换序列
  5. P1216 [IOI1994][USACO1.5]数字三角形 Number Triangles(简单dp)
  6. 【Qt】modbus之串口模式读操作
  7. 概率校准与Brier分数
  8. Leetcode--231. 2的幂
  9. java二次指数平滑法预测未来的值
  10. 女生在java开发和前端之间不知道选择哪个怎么办?
  11. 计算机算法设计与分析 最大子段和问题
  12. 物联网核心安全系列——智能汽车安全防护的重要性
  13. 严防ARP病毒的六个步骤
  14. HDU2049 不容易系列之(4)考新郎 —— 错排
  15. 半导体物理复习总结(二)——半导体中的杂质和缺陷能级
  16. CSAPP Lab5--Writing a Dynamic Storage Allocator
  17. mybatis中的事务
  18. 瑞幸咖啡 Luckin Coffee
  19. Cadence OrCAD Capture CIS 输出带属性的PDF原理图
  20. iOS之地图的使用和实时描绘运动轨迹

热门文章

  1. 智慧商贸新增销售数据data到layui表格里面
  2. VUE环境搭建教程以及VSCODE插件Vetur和ESlint的安装配置
  3. 苹果6 系统更新 无服务器,苹果6无法检查更新怎么办
  4. 半导体器件与物理-pn结
  5. ADB安卓调试桥接工具
  6. 基于51单片机的三路自动数字电压表仿真ADC0809 数码管显示程序设计
  7. 上帝掷骰子吗?量子物理史话-序篇
  8. 三极管工作原理(转载)
  9. 微信开放平台实现扫码登录(java)
  10. 手机日历日期下面的小圆点表示什么?手机怎么使用日历便签