数据科学课程笔记1 --- 导论
1. 与数据科学有关的相关学科包括:数据库(Database)数据挖掘(Data Mining)机器学习(Machine Learning)模式识别(Pattern Recognition)数据科学导论(Data Science)等。
其中,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学更重视理论研究,因此,统计学提供的许多技术通常都要在机器学习界进一步研究,编程有效的机器学习算法后,进入数据挖掘领域。机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行再改造,使得算法性能和空间占用都达到实用的地步。同时,数据挖掘还有自身独特的内容,及关联分析。数据挖掘重在发现知识,模式识别重在认识事物。机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器学习是方法,模式识别是目的。
2. 数据科学的组成
· 计算机技巧 · 数学和统计知识 · 实质性的专业知识
数据科学知识图:
由上到下依次为:介绍、数据科学的处理过程、基本分析工具(weka 、 R 、 python)、分析方法、工程技术工具、实验和结果交付
3.数据科学中的三个重要技能:
1. 计算机能力:数据的获取和整理
· 数据整理
· 大规模数据
· 存储数据只是数据平台建设的一部分
2.数学和统计学能力:数据的挖掘
· 机器学习是另一项必不可少的工具
· 统计是“数据科学的语法”
· 一个不可或缺的语言工具(R 或 Python)
3. 图形可视化:数据的提炼和展现
· 展现的不仅仅是结果,还包括贯穿过程的分析过程可视化、挖掘结果可视化等。
· why可视化: 对于人来说,知识最重要。而人类最容易学习到的知识就是图形。
大数据分析:数据稀疏度高、善于处理不完整的数据
数据处理:多源异构交叉分析
得到结果:数据说明了什么
数据量:海量
4.大数据的数据源
大数据包括:交易数据和交互数据集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
· 海量交易数据:企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通古关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们可以了解到过去发生了什么
· 海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件和传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。可以告诉我们未来会发生什么
· 海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop
· 大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商
· 现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统
· 终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系
即 文字作为数据、位置作为数据、沟通作为数据、量化一切
5. 大数据是互联网及其延伸导致的“自然现象”
大数据源于 信息技术的不断廉价化 与 互联网及其延伸所带来的 无所不在的信息技术应用,源于 摩尔定律驱动的指数增长模式 ,源于 技术低成本驱动的万物数字化, 源于 宽带移动泛在互联驱动的人机物广泛链接, 源于 云计算模式驱动的数据大规模汇聚
6.大数据的定义
大数据的4个基本特征(4V):
数量(Volume),即数据巨大,从TB级别跃升到PB级别;
· 非结构化数据的 超大规模和增长
· 比结构化数据增长快10倍到50倍
· 是传统数据仓库的10倍到50倍
· 总数据量的80%~90%
多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;
· 大数据的异构和多样性
· 很多不同形式
· 无模式或者模式不明显
· 不连贯的语法或句义
价值密度(Value),即高质量的数据;
· 大量的不相关信息
· 对未来趋势和模式的可预测分析
· 深度复杂分析(机器学习、人工智能 / 传统商务智能(咨询、报告等))
速度(Velocity),即快速处理。2方面含义:数据增长速度快 、 数据处理速度快(实时)
· 实时分析而非批量式分析
· 数据输入、处理与丢弃
· 立竿见影而非事后奏效
价值密度低,是大数据的一个典型特征
能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。(如语义分析技术、图文转换技术、模式识别技术等)
对于数据处理速度而言,1s是临界点。对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。
实时处理的要求,是区别大数据引用和传统数据仓库技术、BI技术的关键差别之一。(BI技术:Business Intelligence 商业智能。使用基于事实的决策支持系统,来改善业务决策的一套理论与方法。数据仓库、OLAP和数据挖掘等技术的综合运用。)
大数据时代的思维变革:更多、更杂、更好。
更多:不是随机样本,而是全体数据
· 实现采样的随机性非常困难
· 随机采样的方法不适用于更深层次的细分领域情况
· 人们只能从采样数据中的初试线设计好的问题结果
· 小数据时代的随机采样,最少的数据获得最多的信息
· 全数据模式,样本 = 总体
更杂:不是精确性,而是混杂性
· 对小数据而言,最重要的要求是减少错误。而在大数据的采集里,在技术尚未到达完美无缺之前,混乱是不可避免的。虽然信息可能不完全准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得划算
· 允许不精确
· 大数据的简单算法比小数据的复杂算法更有效
· 纷繁的数据越多越好
· 混杂性,不是竭力避免,而是标准途径
更好:不是因果关系,而是相关关系
· 大数据时代最大的转变就是,放弃对因果关系的渴求,而转而关注相关关系。即只要知道“是什么”,而不需要知道“为什么”
· 大数据时代改变人们探索世界的方法
数据科学课程笔记1 --- 导论相关推荐
- 数据科学与大数据排名思考题_排名前5位的数据科学课程
数据科学与大数据排名思考题 目录 (Table of Contents) Introduction介绍 Udemy乌迪米 Machine Learning A-Z™: Hands-On Python ...
- hahabet05-com:大数据与数据科学课程体系--哈哈电竞
一. 大数据与数据科学专业 二. 大数据与数据科学培养的主要人才 大数据与数据科学主要培养大数据应用分析师.大数据系统工程师.大数据算法研究员几大类,猫先生官网登录搜hahabet每个大类下又可以根据 ...
- 2022年100个以上免费数据科学课程
想成为数据科学家,你将面临一个艰巨的挑战.不仅要掌握机器学习等技术,还要学会商业分析.但是,回报也是丰厚的.此外,你还会解决许多有趣的问题,可以掌握新的.有影响力的技术. 本文分享了100个以上免费的 ...
- 顶尖高手2019_2019顶尖的在线数据科学课程
顶尖高手2019 After over 80+ hours of watching course videos, doing quizzes and assignments, reading revi ...
- 互联网大数据公司排名_互联网上最好的数据科学课程,按照您的评论排名
互联网大数据公司排名 by David Venturi 大卫·文图里(David Venturi) 互联网上最好的数据科学课程,按照您的评论排名 (The best Data Science cour ...
- 加州大学信息科学院长:数据科学课程不只是工程师才修的
一般在考虑围绕数据科学的基础教育时,传统上的重点仍停留在计算和工程等硬性技能上.不过,在周四于纽约市召开的GigaOm结构数据(Structure Data)会议上,美国加州大学伯克利分校信息科学院长 ...
- 数据库初学者_面向初学者的免费6小时数据科学课程
数据库初学者 Data science is considered the "sexiest job of the 21st century." Learn data scienc ...
- 北美+德国18所名校数据科学课程汇总
转载自:http://www.itongji.cn/hao/courses.html [编者注]北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总,主要包括问答.相关课程.相关的研讨会.书籍 ...
- 数据科学库笔记(四)pandas
文章目录 (一)什么是pandas (二) pandas安装 2.1 直接命令安装 2.2 下载pipy文件安装 (三)pandas的常用数据类型 3.1 pandas之Series创建 3.2 pa ...
最新文章
- 清除 Xcode 项目缓存
- 关于python2.7的md5加密遇到的问题(TypeError: Unicode-objects must be encoded before hashing)...
- 关于Spring 中的PortletModeHandlerMapping
- ITK:索引置换序列
- P1216 [IOI1994][USACO1.5]数字三角形 Number Triangles(简单dp)
- 【Qt】modbus之串口模式读操作
- 概率校准与Brier分数
- Leetcode--231. 2的幂
- java二次指数平滑法预测未来的值
- 女生在java开发和前端之间不知道选择哪个怎么办?
- 计算机算法设计与分析 最大子段和问题
- 物联网核心安全系列——智能汽车安全防护的重要性
- 严防ARP病毒的六个步骤
- HDU2049 不容易系列之(4)考新郎 —— 错排
- 半导体物理复习总结(二)——半导体中的杂质和缺陷能级
- CSAPP Lab5--Writing a Dynamic Storage Allocator
- mybatis中的事务
- 瑞幸咖啡 Luckin Coffee
- Cadence OrCAD Capture CIS 输出带属性的PDF原理图
- iOS之地图的使用和实时描绘运动轨迹