随着信息技术和物联网技术的发展、个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长。根据国际数据公司(International DataCorporation,IDC)的报告,仅2011年,全世界产生的数据就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增长9倍[1]。大数据一词由此而生。

大数据是指难以被传统数据管理系统有效且经济地存储、管理、处理的复杂数据集。大数据一般以PB为单位计量,并包含结构化、半结构化、无结构化的数据,大数据给数据的采集、运输、加密、存储、分析和可视化带来了严峻的挑战[2]。与传统数据相比,大数据包含5个V特性:Volume(数据规模巨大)、Variety(数据类型繁多)、Velocity(数据产生的数据非常快)、Veracity(分析结果取决于数据准确性)、Value(大数据一般包含非常重要的价值)[3]。大数据带来了存储、管理、处理数据的挑战,也带来了发掘数据中新的价值的机遇。多个行业已经利用大数据改善业务,例如金融业、零售业、生命科学、环境研究。大数据市场估计每年会增长50亿美元的价值,到2020年将达到600亿美元的价值[4]。

医疗健康行业目前面临着巨大的挑战,其中,最主要的挑战包括:急剧升高的医疗支出、人口老龄化带来的慢性疾病问题、医疗人员短缺、医疗欺诈[5]等。国家统计局的数据显示,我国2013年医疗卫生总支出为31 668亿元,较2012年上升12.6%,并且已经连续8年每年增长超过10%。医疗支出已经占据了社会总支出很大的比例,在可以预见的将来,医疗支出将会持续增长。然而,根据美国医学研究院(Institute of Medicine,IOM)的一篇报告,如今医疗健康支出的1/3被浪费而没有用于改善医疗。这些浪费包括不必要的服务、行政浪费、昂贵的医疗费用、医疗欺诈和错失预防的机会[6]。为了保持竞争力,医疗机构必须把数据作为一种战略资产,分析数据以达到提高诊断准确度、提高疗效、降低费用、减少浪费的目的。

医疗健康机构采用大数据可以有效地帮助医生进行更准确的临床诊断;更精确地预测治疗方案的成本与疗效;整合病人基因信息进行个性化治疗;分析人口健康数据预测疾病爆发等。利用大数据技术还能有效减少医疗成本,麦肯锡全球研究院预计使用大数据分析技术将每年为美国节省3 000亿美元开支。其中,最有节省开支潜力的两个方面包括临床操作和研发[7]。利用大数据技术帮助医疗企业实现其业务的例子正在快速增多。比如,ActiveHealthManagement收集用户健康方面的数据以帮助用户实现健康管理;CancerIQ整合临床数据和基因数据帮助实现癌症的风险评估、预防和治疗;CliniCast利用大数据预测治疗效果以及降低花费。

本文首先介绍医疗健康行业的大数据特点以及大数据技术背景,然后举例说明目前大数据在医疗健康行业的应用,最后分析目前的医疗健康大数据系统及其相关技术。

2 背景知识

2.1 大数据处理方法

根据麦肯锡全球研究院2011年的报告,适合大数据的处理技术包括:关联规则学习、分类、聚类分析、数据融合、机器学习、自然语言处理、回归、信号处理、仿真、可视化[8]等。其中,关联规则学习是挖掘各个变量间有趣的关系,比如在零售中发现经常被一起买的商品,便于促销;分类是通过训练已有的数据集来有效识别新的数据,比如预测用户的购买行为;聚类分析是按数据相似程度将整个数据集分为多个小规模的数据集;数据融合是将多个数据源的信息整合分析以产生新的更加精确、连续、有价值的信息;机器学习是一类算法的总称,关注设计算法自动识别数据中的复杂模式;自然语言处理关注计算机与自然语言的联系,帮助计算机识别人类语言;回归是一组统计算法,用来判断因变量与自变量的关系,以帮助预测。信号处理是一组用来识别、分析、处理信号的技术;仿真是模拟一个复杂系统行为的技术,经常被用来预测;可视化是将数据处理为图像、图标、动画,以帮助人类直观了解数据。

2.2 大数据处理平台

大数据的特点决定了传统的数据库软件和数据处理软件无法应对存储、处理、分析大数据的任务。大数据处理任务由运行在数十台,甚至数百台服务器的大规模并行软件完成[8]。常见的大数据处理平台和工具有:MapReduce,其提供了一种分布式编程的抽象方法;Hadoop,其包含了多个系统和工具以帮助完成大数据任务; HDFS,其用来可靠地分布式存储数据; Hive,其提供了Hado op上的SQL支持; HBase,它是基于HDFS的一种非关系型数据库;Zookeeper,其提供了集群节点的一个管理方法。

2.3 医疗健康数据来源

医院信息系统(hospital information system,HIS)是医疗数据的重要来源。医院信息系统包括:电子病例系统(electronic medicalrecord system,EMRS)、实验室信息系统(laboratory information system,LIS)、医学影像存档与通信系统(picture archiving &communicationsystem,PACS)、放射信息管理系统(radiology information system,RIS)、临床决策支持系统(clinical decision support system,CDSS)等。根据中国医院信息化状况调查报告中对于医院信息系统的总体实施现状报告,截至2006年,电子病例系统、实验室信息系统、医学影像存档与通信系统、临床决策支持系统的已有或在建率分别为27.46%、37.70%、25.20%、12.30%[9]。

除此之外,各种健康设备可以帮助收集用户的生命体征信息,比如心电数据、血氧浓度、呼吸、血压、体温、脉搏、运动量。社交网络和搜索引擎也包含了潜在的人口健康信息。

2.4 医疗健康大数据特点

医疗大数据除了包含了大数据5 个V 的特点之外,还有多态性、时效性、不完整性、冗余性、隐私性等特点[10]。多态性指医师对病人的描述具有主观性而难以达到标准化;时效性指数据仅在一段时间内有用;不完整性指医疗分析对病人的状态描述有偏差和缺失;冗余性指医疗数据存在大量重复或无关的信息;隐私性指用户的医疗健康数据具有高度的隐私性,泄漏信息会造成严重后果。

3 医疗健康大数据应用举例

信息化的医疗数据、医疗研究数据、病人特征数据以及移动设备、社交网络和传感器产生的医疗健康相关的数据为医疗健康从业人员提供了新的思路,利用大数据技术可以从中发现潜在的关系、模式,从而帮助医师提高诊断精度、预测治疗效果、降低医疗成本,帮助医药公司发现潜在的药物不良反应、帮助公共卫生部门及时发现潜在的流行病。下面将从公共卫生、药物副作用评估、治疗预测与降低医疗成本、辅助诊断与个性化治疗等几个方面介绍大数据的用处。

3.1 助力公共卫生检测

2009年,Google比美国疾病控制与预防中心提前1~ 2周预测到了甲型H1N1流感爆发,此事件震惊了医学界和计算机领域的科学家,Google的研究报告发表在Nature杂志上[11]。Google正是借助大数据技术从用户的相关搜索中预测到流感爆发。随后百度公司也上线了“百度疾病预测”借助用户搜索预测疾病爆发。借助大数据预测流感爆发分为主动收集和被动收集,被动收集利用用户周期提交的数据分析流感的当前状况和趋势,而主动收集则是利用用户在微博的推文、搜索引擎的记录进行分析预测。

FluNear You[12]借助用户周期提交的自我流感检测来预测流感的爆发。首先,用户在Flu Near You的网站上注册,随后每个星期用户将收到一封电子邮件,指引用户登录Flu Near You网站。在网站上,用户填写一份关于自己是否有流感症状的调查。最终Flu Near You收集信息并利用大数据技术生成目前流感疾病和未来流感疾病预测的可视化图表。

流感爆发初期,通常伴随着用户在搜索引擎搜索相关内容或在社交网络上发布相关内容,这些信息可以作为流行病爆发的初期预警[13,14]。参考文献[15]以用户在Twitter上的推文以及英国健康保健局发布的城市流感样病例率(influenza like illnessrate)为数据源,通过LASSO算法进行特征选择,选择推文关键字,建立未来数天流感样病例率的预测模型,取得了比较精确的结果。在疾病传播中,长时间与病原体接触会增加感染的几率,因此追踪人口接触信息以及人口位置信息将有助于了解流行病的行为[16,17]。参考文献[18]设计了一套使用智能手机自动收集人口位置信息与接触信息的应用。参考文献[19]将流行病数据源分为媒体(包括官方媒体)、移动设备、社交网络、Pro-Med邮件列表、实验室和医院数据,并根据不同数据来源设计了一套收集数据、分析数据、验证数据、数据可视化的系统,用以直观表现流行病的情况。

3.2 帮助发现药物副作用

药品上市后的不良反应检测一般依赖被动检测和主动检测。被动检测依赖于医生、患者、制药公司提供的不良反应报告。被动检测最大的问题是漏报,参考文献[20]认为94%的不良反应没有被报告。主动检测则是利用文本挖掘、数据挖掘技术从EHR、EMR、社交网络、搜索引擎中发现潜在药品导致不良反应事件[20]。参考文献[21]利用药品不良反应存在时间先后顺序,挖掘电子病例中可能存在的药物不良反应。参考文献[22]将引起不良反应的条件分为使用一种药品、两种药品、一种药品和病人的一种特点、一种药品和一种药品过敏事件,根据决策树、聚类等数据挖掘方法发现条件和不良反应结果的关系。当药物使用与不良反应存在低频率的因果关系时,一般的数据挖掘算法将难以分辨因果关系和偶然事件[23],参考文献[23]基于预认知决策模型(RPD model)设计了多种算法用以发现药品不良反应中的低频因果关系[23~25]。

3.3 助力治疗预测与降低医疗成本

目前,医疗健康行业成本高昂的部分原因来自医疗失误和医疗浪费。根据1998年美国医疗协会的报告,仅仅在美国,可以避免的医疗失误每年造成了98 000起死亡案例[26]。美国花在医疗健康上的费用超过1 700亿美元,而中国每年花费在医疗健康上的费用超过30 000亿元。在此背景下,多国通过改革医疗系统以减少医疗失误及医疗浪费,最终削减医疗开支。美国于2011年通过的关于医疗健康信息技术的HITECH法案宣布:决定投入500亿美元在5年内使用信息技术解决医疗行业存在的问题[27]。而中国在2009年宣布了花费1 200亿元的10年医疗系统改革计划的第一部分。

参考文献[28]中分析了澳大利亚的医疗保险行业,认为使用目前的验证技术无法有效发现医疗服务中存在的欺诈、滥用、浪费、错误等现象,原因在于旧的验证技术只关注单个病例,无法利用多个病例间的联系。作者以医疗账单为数据源,建立关于治疗费用、住院时间等数据的预测模型,使用数据挖掘技术发现账单中的异常数据;使用领域专家建立的规则库分析异常账单,发现其中可能存在的问题并给出警告。典型的应用环境包括医疗器材滥用、手术过程与病情诊断不符、过度收费等。提早检测出医疗过程中的问题将为国家保险机构、患者、私立保险机构节省大量花费。

3.4 辅助诊断

参考文献[29,30]认为患者的基因型、生活方式、身体特征、多重病患严重影响了治疗效果。提早根据患者的特征设计个性化的治疗方案将有助于降低成本,减少医疗事故。参考文献[31]认为通过挖掘用户基因信息和电子病例可以做到:根据患者基因信息和患者的其他特征预测各种治疗方案可能的副作用;选择更好的治疗方案,而不是尝试各种治疗方案;帮助用户预防疾病或削弱疾病的影响。之后,参考文献[31]设计了一套系统Mayo用来收集、存储个性化治疗所需要的数据,并为数据分析师提供分析数据的平台。参考文献[32]则通过分析病人的特征数据并匹配相似病例以帮助医师诊断。

4 医疗健康大数据平台

为了利用大数据技术处理医疗健康问题,需要针对数据特点以及处理方式设计专门的系统。下面主要介绍目前医疗健康大数据平台如何设计以应对挑战。

4.1 个人数据收集系统

iEpi[1]是一个便于流行病医疗科研人员快速搭建起收集用户接触信息、位置信息平台的系统,本文主要对其进行介绍分析。

4.1.1 背景

智能手机的普及为获取个人医疗数据提供了一个绝佳的机会,利用这些信息服务个人医疗、公共卫生成了关注的焦点。多个应用给予用户控制自己健康状况的自由,为医疗服务提供商提供病人的详细状态信息。这些应用主要提供非聚集的信息。而聚集化的信息可以更容易地提供准确、一致性的信息。

人口的接触信息提供了了解流行病传播模式的机会。人口活动信息加上位置信息,可帮助城市规划者了解建筑环境对健康的影响;加上环境质量监控器,可以帮助了解环境污染对健康的影响。

4.1.2 目标

  • 设计一个个人数据收集系统,周期性收集用户数据,包括位置、加速度、温度、心跳等信息;
  • 考虑到需要提供接触信息,位置信息应尽可能精准;
  • 用户可以设定所要收集的数据以及数据收集的频率和持续时间;
  • 考虑到医疗研究人员可能没有编程经验,配置方式应该简单。

医疗健康大数据: 应用实例与系统相关推荐

  1. 《大数据》第2期“应用”——医疗健康大数据:应用实例与系统分析

    医疗健康大数据: 应用实例与系统分析 董 诚1,2,林 立1,2,金 海1,2,廖小飞1,2 1. 华中科技大学计算机科学与技术学院服务计算技术与系统教育部重点实验室武汉430074 2. 华中科技大 ...

  2. 2015年《大数据》高被引论文Top10文章No.6——医疗健康大数据:应用实例与系统分析...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.6,刊 ...

  3. 医疗健康大数据: 应用实例与系统分析(转)

    1 概述 随着信息技术和物联网技术的发展.个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长.根据国际数据公司(International DataCorporation ...

  4. 医疗健康大数据基础知识

     1.大数据是指难以被传统数据管理系统有效且经济地存储,管理,处理的复杂数据集. 大数据以PB为单位,包含结构化,半结构化,无结构化数据,大数据给数据的采集,运输,加密,存储,分析和可视化带来了严 ...

  5. 研究 | 健康大数据平台的“区块链治理”

    个人健康数据,是一个私密性领域,此类数据的挖掘和应用,以前传统的计算机平台技术方式已经不足以支撑.文章着重探讨了应用区块链技术进行治理的一些方法,但是并没有过多的从区块链"去中心化" ...

  6. 掘金健康大数据 需突破多重挑战

    大数据正成为创业者们期望实现弯道超越的关键词.然而,尽管各行各业都在吐纳数据,却不是每个行业都能在庞大的数据王国上,建立起成熟的商业模式.3月17日,由英特尔(中国)和同渡资本共同主办的"智 ...

  7. 大数据开发:MongoDB系统架构简介

    MongoDB作为NoSQL数据库,基于分布式环境的场景下,对于系统架构的性能是要求比较高的.面对分布式场景下的大规模数据存储,MongoDB以文档型存储任务为主.今天的大数据开发学习分享,我们就来讲 ...

  8. 计算机毕业设计springboot基于大数据的疫情追踪系统的设计和实现rva1s源码+系统+程序+lw文档+部署

    计算机毕业设计springboot基于大数据的疫情追踪系统的设计和实现rva1s源码+系统+程序+lw文档+部署 计算机毕业设计springboot基于大数据的疫情追踪系统的设计和实现rva1s源码+ ...

  9. 国外医疗行业大数据应用解决之道

    医疗保健不乏大数据分析应用案例,其中包括减少再住院.更好的药物治疗管理.提高战略规划和防欺诈行为. 这些意愿都很好,但关键在于从何开始?大多数医疗数据仍然非结构化的专有的和孤立的--为此创建一个临床 ...

最新文章

  1. python爬虫框架排行榜-8个最高效的Python爬虫框架,你用过几个?
  2. xml解析案例:一个简单的学生管理系统
  3. 三菱变频器e700参数表_三菱Q系列PLC,用CCLink控制变频器正反转和多段速
  4. 精彩回顾 | Apache Flink x Iceberg Meetup · 上海站
  5. 程序员养发(老师付推荐)
  6. scala一些奇怪的操作符的效果(持续更新中)
  7. Android之提示androidx.recyclerview.widget.LinearLayoutManager@51ddcd is already attached to a RecyclerV
  8. mysqldatadir 转移
  9. NLP界新SOTA!吸纳5000万级知识图谱,一举刷爆54个中文任务!
  10. 阿里每天纳税超 1.4 亿元;余承东:苹果很难和华为竞争;三星 Note 7 爆炸案终审 | 极客头条...
  11. Eclipse自动生成返回值对象的快捷键是什么?
  12. f1签证计算机专业容易拒签吗,美国f1签证会被拒签吗?
  13. 如何在 Kubernetes 集群中集成 Kata
  14. 基于Python+Django+MySQL的大学生信用评估系统
  15. 第二本书unit5 lvm管理
  16. Python自动化运维脚本
  17. oracle创建dblink同义词,Oracle中DBlink与同义词
  18. 拼团模式--社交电商的常见营销手法
  19. 我不是九爷 带了解 Unity3D与VR虚拟现实
  20. linux中sh脚本的写法

热门文章

  1. “晓白”学python-科普篇(2)-人们都用python做什么?
  2. cuda编程环境搭建
  3. 【计算机毕业设计】java 微信小程序商城系统的设计与实现
  4. 快捷键使电脑屏幕翻转
  5. python系统编程
  6. Aria2高速下载利器 带你冲破百度网盘重重束缚
  7. 十四、Debian 10 ldap
  8. 吞吐量和IOPS测试
  9. JavaScript数字转字符串,字符串转数字
  10. 用Powerpoint (PPT)制作并导出矢量图、高分辨率图