第2章

大数据分析模型

大数据分析模型讨论的问题是从大数据中发现什么。尽管对大数据的分析方法林林总总,但面对一项具体应用,大数据分析非常依赖想象力。例如,对患者进行智能导诊,为患者选择合适的医院、合适的科室和合适的医生。可以通过患者对病症的描述建立模型而选择合适的科室;可以基于对患者位置、医院擅长病症的信息以及患者病症的紧急程度建立模型而确定位置合适的医院;还可以根据医院当前的队列信息建立模型进行推荐,如果队列较长则显示已挂号人数较少、等待时间较短的医生资料,如果队列较短则显示那些挂号费和治疗费较高但医术相对高明、经验相对丰富的医生资料。

这些分析离不开一系列基本的模型与方法。大数据分析模型用于描述数据之间的关系,我们经常听说的贝叶斯分类器、聚类、决策树都是大数据分析模型。

面向具体应用的大数据分析模型往往是这些分析方法的扩展或者叠加,例如我们可以结合支持向量机(SVM)和随机森林一起对心脏病病人的重新入院率做一个预测,对那些重新入院概率高的病人提供更加周到的住院期间的护理和出院后的跟踪护理。

大数据的分析模型有多种不同分类方法。例如,依据分析的数据类型,可以分类成面向结构化多维数据的多元分析、面向半结构化图数据的图分析以及面向非结构化文本数据的文本分析。根据分析过程中输出和输入的关系,又可以分类成回归分析、聚类分析、分类和关联规则分析等。根据输入的特征,可以分为监督学习、无监督学习和半监督学习等。

大数据分析是一个比较广的范畴,和统计分析、机器学习、数据挖掘、数据仓库等学科都存在关系,因而Michael I. Jordan建议用“数据科学”来覆盖整个领域。而大数据分析模型的建立是其中最基础也是最重要的步骤。

本章将对大数据分析模型进行概述,首先在2.1节介绍大数据分析模型建立方法,在接下来的两节中介绍两种从数据中发现规律的统计方法。一种是直接计算数据的统计量(见2.2节),另一种是利用数据来推断数据所描述对象的总体特征,即统计推断(见2.3节)。

《大数据分析原理与实践》——第2章 大数据分析模型相关推荐

  1. 《大数据分析原理与实践》一一导读

    前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应 ...

  2. 《大数据分析原理与实践》一一1.5 全书概览

    本节书摘来自华章计算机<大数据分析原理与实践>一书中的第1章,第1.5节,作者:王宏志 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 1.5 全书概览 本书将 ...

  3. 《大数据分析原理与实践》一一1.2 哪里有大数据

    本节书摘来自华章计算机<大数据分析原理与实践>一书中的第1章,第1.2节,作者:王宏志 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 1.2 哪里有大数据 大 ...

  4. 《大数据分析原理与实践》——导读

    前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应 ...

  5. 《大数据分析原理与实践》一一2.3 推断统计

    2.3 推断统计 推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据. ...

  6. 《大数据分析原理与实践》——小结

    小结 关联分析模型用于描述多个变量之间的关联,这是大数据分析的一种重要模型,本章主要探讨了回归分析.关联规则分析和相关分析这三类关联分析.3.1节介绍了回归分析模型,即描述一个或多个变量与其余变量的依 ...

  7. 《大数据分析原理与实践》——习题

    习题 在我们身边有哪些大数据?在这些大数据上有哪些分析任务? 比较"分析""机器学习"和"数据挖掘"的异同. 比较电子商务和工业生产中大数据 ...

  8. 《大数据分析原理与实践》一一第3章 关联分析模型

    第3章 关联分析模型 关联分析用于描述多个变量之间的关联.如果两个或多个变量之间存在一定的关联,那么其中一个变量的状态就能通过其他变量进行预测.关联分析的输入是数据集合,输出是数据集合中全部或者某些元 ...

  9. 智多星大数据分析云平台实践

    2014年10月,江苏银行夏平董事长确立了利用 ** 大数据 ** 实现弯道超车的发展战略,将 ** 大数据 ** 应用提升到全行发展的战略层面.2015年上半年,江苏银行完成了 大数据平台 选型和建 ...

最新文章

  1. 华为harmonyos和ios,华为EMUI正式更名为HarmonyOS,看来华为真的是孤注一掷了
  2. Spring中的异步任务
  3. SQL(基于MySQL)——LIMIT用法
  4. 【TypeScript】防止对象改变
  5. 智能仪表参数设定c语言,智能仪表控制系统:.doc
  6. linux加大ram 内核需要,Linux 5.1内核发布:io_uring接口+支持持久性内存用作RAM
  7. 压控元器件和流控元器件
  8. 典型的SPI控制器的结构
  9. java wait 释放_Java:wait()从同步块释放锁
  10. 第5章 C++内存模型和原子类型操作
  11. cad标注样式快捷键_CAD快速入门(二十三):标注样式
  12. win7加入网络计算机,win7怎么加入局域网连接
  13. wampserver 的Apache启动错误提示:The requested URL / was not found on this server
  14. 图解IE浏览器下,如何保存输入记录
  15. 以影像技术为“桨“,荣耀如何讲好高端“新故事”?
  16. 华硕rt-n16无线打印服务器,无线打印好拍档 华硕RT-N16赠照片打印机(图)
  17. 【游戏开发创新】Unity+人工智能,让小朋友的画成真,六一儿童节一起来画猫猫吧(Unity | 人工智能 | 绘图 | 爬虫 | 猫妖)
  18. 图片择优算法(模糊图片筛选出最清楚的图片) 没有使用第三方库
  19. 网站怎么屏蔽指定搜索引擎访蜘蛛的访问
  20. 使用轻量级虚拟桌面基础架构 (VDI) 解决方案降低 IT 成本并保护数字知识产权

热门文章

  1. 高阶系统怎么用matlab降阶,一种基于非线性规划的高阶系统最优降阶方法
  2. 曲线拟合最小二乘法优缺点_Matlab曲线拟合 最小二乘法 polyfit(转)
  3. if语句计算狗狗年龄相当于人类年龄的多少?
  4. 协商的定义及研究范畴
  5. DNS服务器未响应解决方案
  6. 虚拟机安装docker
  7. 酒店人必看 | 三大数字化营销策略有效吸引本地及休闲客源,实现收益倍增!
  8. matlab gui基础
  9. windows下delf配置:delf环境(二)
  10. 德州监管机构针对海外ICO活动下发禁令