Adrian Lee一生致力于研究乳腺癌,这意味着他可以同时面对着很多疑难杂症。「没有任何两个乳腺癌是完全一样的。癌症远比我们想象的要复杂。」 Lee说。Lee是宾夕法尼亚大学的药理学家和化学生物学家。

Lee正在使用基因技术来全面了解乳腺癌,并且利用这些知识来指导对病人的治疗决定。「现在我们可以从单个样品中去分析多个变量,例如DNA的改变、RNA的改变和甲基化的改变。全基因组扫描可以帮助建立更好的系统生物学,从而使得我们可以了解一个特定肿瘤究竟是什么地方出错了。」

目前的肿瘤测序并以往任何时候都要快,要便宜,且更容易。通过许多研究人员收集测序数据,并且上传到公共数据库,例如癌症基因组图谱(TCGA),我们将有机会来描述乳腺中产生的许多不同类型的癌症。「曾经这个目标的挑战是产生数据,而这些问题现在已经解决了。现在的挑战是数据处理和数据分析——解释这些突变,并且和肿瘤专家沟通。」

匹兹堡大学的研究人员正在努力找出患有乳腺癌的病人的分子特征和宿主的临床数据之间的联系,这些临床数据包括与人年龄、种族和体重等相关的统计信息。他们正在着手建立这些临床相关性、治疗的相互作用和结果的电子健康档案。「这就好像我们要从一个大草垛中去找出一个针头一样。同时我们也在努力将这根针和很多其他事情联系起来。」 Lee说。从病人的电子档案中将所有的数据收集起来,这需要庞大的基础工程的支持。匹兹堡已经积累了5千万亿字节,即500千兆字节,这些数据需要400000台新iPhone 6设备才能存储。

将这些从实验室获得的大量测序数据和正在和乳腺癌抗争的个体联系在一起需要无数时间和超强的的电脑计算能力的支持。大数据时代需要那些适应嘈杂噪声的研究人员,以及在创建灵活的计算机程序方面的老手。

从数据到知识

大数据研究人员采取一个大的数据集,然后从中寻找模式。这样做是希望可以找到突变,然后与相应的药物治疗相联系。这是个体化医疗的精髓:从病人的肿瘤中筛选一组生物标记物,然后选择最佳治疗方案来对抗癌症。大数据的研究人员认为,通过分析数千个肿瘤的数据可以获得相应模式,从而可提高筛查和诊断,进一步有利于提出合理的治疗方案。

Lee及其同事已经表明,大数据科学可以引导我们重新思考乳腺癌。他们使用了两种公共数据库——癌症基因组图谱(TCGA)和国际乳腺癌联盟的分子分类学(METABRIC),这些数据库包含了数千种乳腺癌肿瘤的基因、RNA转录子和蛋白质信息——来分析年轻人和年老一些的妇女的乳腺肿瘤中分子特征的差异。年龄低于40岁的女人更容易具有更糟的疾病:他们更可能具有晚期癌症、更差的预防诊断结果和更糟的存活几率。

该团队也分析了45岁以下(即有可能绝经前的女性)和55岁以上(有可能绝经后的女性)的女性的肿瘤数据。「我们仔细观察了你可能观察的任何数据,包括基因的突变、核糖核酸的突变、肿瘤的基因表达、变型中的某些特定基因表达数量的不同和DNA甲基化水平。他们发现绝经前的女性其情况很不一样,尤其是基因的表达这一部分。」

当研究人员发现越来越罕见的基因突变时,这些问题变得越来越严峻。Lee刚刚看完了2000中基因突变的电子表格,「其中之一是ER突变,但是我如何从其他中间筛选呢?这是一个非常基础的问题。」他指的是一个突变的雌激素受体,也是乳腺癌中一个常见的突变。

一种思路是分析突变基因影响的细胞途径,这意味着使用开发的算法将所有收集到的分子信息整合,并分类成共同成长类或细胞周期途径类。研究人员可以使用这些分类的信息就影响途径来描述这些肿瘤细胞,而不是单纯地说影响分子。加州大学圣克鲁兹分校生物信息学家Josh Stuart开发了一种可以集成各种基因数据集的计算方法,这些基因数据已经知道细胞——信号传导途径。「我们知道正常细胞中的基因周期,现在我们要问,在肿瘤细胞中究竟是那部分出问题了?令人惊讶的是,我们成功了。」 Stuart说。

Lee的研究小组在其研究中使用了PARADIGM计算分析方法。事实证明,这种方法对于揭示绝经前妇女雌激素受体的阳性乳腺癌功不可没。该方法表明,虽然单个分子会有异常变化,但是它们通常都会在一组特定的、传递信号给整合素的通路中发生——涉及肿瘤相关的血管形成的蛋白质。

具有雌激素受体阳性乳腺癌的绝经前妇女的肿瘤中的整合素非常重要,者也表明这些分子可以是治疗靶标。「这些分子中有整联蛋白抑制剂。」 Lee说。并且有些分子已经经过临床测试。

从知识到应用

随着大数据研究人员通过大量的肿瘤数据库寻找突变模式时,他们也会在其中增加新的类别的乳腺癌。2012年,两大数据库公布了自己的关于数据驱动的方法研究乳腺癌基因的论文。TCGA网络,这个由数十个美国和欧洲的科研机构联合起来的团体,基于基因异常和表观遗传异常想出了乳腺肿瘤的四项总体分组基。他们发现只有不到10%的样品中有三种基因发生了变异,表明稀有突变是乳腺癌类型的一个重要部分。METABRIC,一个英国和加拿大的机构联盟,将基因数据(基因表达的数目和基因表达变异)与长期的临床结果相结合,将肿瘤分为十个大类。通过与临床数据相结合,这种新的分组可能使肿瘤学家做出更好的患者预防和治疗决策。

「我们仍然在完善我们的研究方法。」剑桥研究院英国癌症研究中心生物统计学家Oscar Rueda说,该机构同时也是METABRIC研究机构联盟的一部分。他们正在对研究中的2000个样品进行测序。Rueda说,该研究希望发现基因突变的诱因,这是癌症早期非常重要的一部分。「关于细胞如何变成癌细胞的理论就有数百种。」

大数据方法也许最终会发现一些之前被忽略的细胞途径。西奈山伊坎医学院的Avi Ma’ayan正致力于细胞途径的数据库的建设,希望可以为将来的研究目标提供一种资源。他的研究得益于美国国家研究院基于集成网络细胞特征的卫生图书馆(LINCS)的鼎力支持。LINCS可以使用研究院(例如麻省理工学院Broad研究所)产生的数据。Broad研究院的高产量实验室在十个不同的细胞系中测试一系列的药物,从而研究药物和细胞活动之间的相互作用。这些药物包括实验样品以及经过监管机构批准的药物。

「你会获得细胞的行为特征,这些特征有助于新型药物的研究。」 Ma’ayan说。如果临床研究人员想要关闭一个特定细胞转换成癌症的路径,他们可以使用Ma’ayan的数据库来搜索具有这个功能的药物。

临床应用

接下来就是将这些关于可操作的突变的知识运用到病人护理方面。研究医院会收集关于病人护理的数据,从而进一步增加知识储备。例如,在MD安德森癌症中心,新的癌症患者会对照已知癌症基因做检测。「这不是对整个基因组,而是一组可操作的突变的200个基因。随着研究知识的增加,这样的小组也会增加。去年原始的200个基因已经扩展到了300个。」 Navin说。

Navin的专业是单细胞测序,他可以研究血液中的肿瘤细胞。在一个样品中只能收集10到20个细胞。「之前的研究方法对于这样小数量的细胞并不管用。」 单细胞测试方法使得病人可以通过用非侵入性测试(例如测试血液样品)的方法来监测治疗过程。肿瘤专家便可以通过检查肿瘤细胞来判断其是否响应治疗或者出现了阻力。

大数据可以和I-SPY的临床测试结合,I-SPY是一种实验性乳腺癌药物的临床试验。「我们正在从病人身上实时收集数据。」加州大学旧金山分校分子肿瘤学家Laura van’t Veer说。

病人在进行诊断的时候,可以通过其肿瘤特征来将其划归为8种预先定义的肿瘤类型之一。然后病人将接受标准的治疗方法,并且使用实验性的靶向药物,同时van’t Veer及其同时则监测究竟肿瘤会响应哪种治疗方式。这样做的目的是评估改善响应靶向治疗的生物标志物。「通过标准治疗方法,我们发现30-35%的病人症状完全缓解,而在我们八种类型的治疗方法,这个比例提升到了50-60%。」

前进道路上仍然还有许多挑战。单个肿瘤也可能随着时间的改变而发生突变,从而使得单个肿瘤也具有多样性。但是Ma’ayan仍然保持乐观。「通过在这个问题上投入更多的金钱和精力,我们就能获得更多的数据。有了更好的坚定的决心,我们可以进一步提高对这个过程的理解。尽管现在感觉前路漫漫,但这并不是一个无限的过程。」

本文转自d1net(转载)

基因学:大数据的大希望相关推荐

  1. 大数据入门没有头绪?这份总结的大数据学习路线希望你用得着

    1.为什么要学习大数据? 1.1,门槛 它比 Java 高一点,因为除了对数据库的操作之外,要学习大数据生态的东西,需要会分布式.数仓.中间件等知识.它比机器学习低一些,不需要你会很多的机器学习算法和 ...

  2. 【大数据】大数据思维的十大核心原理

    感谢博主,转自:https://blog.csdn.net/supermapsupport/article/details/78741774 一.数据核心原理 从"流程"核心转变为 ...

  3. 大数据可视化大屏设计经验,教给你!

     前言    大数据产业正在用一个超乎我们想象的速度蓬勃发展,大数据时代的来临,越来越多的公司开始意识到数据资源的管理和运用,大数据可视化大屏展示被更多的企业青睐,身为UI设计师的我们,也要紧跟时代的 ...

  4. 品《阿里巴巴大数据实践-大数据之路》一书(上)

    7月有人推荐阿里巴巴刚出的这本书<阿里巴巴大数据实践-大数据之路>,到亚马逊一看才是预售状态,拍下直到8月才拿到. 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个 ...

  5. 什么是大数据?大数据学习路线和就业方向

    大数据又称巨量资料,就是数据量大.来源广.种类繁多(日志.视频.音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据. 专业的来讲:大数据(big data,mega data),或称巨量资料 ...

  6. UCLA教授朱松纯:走向通用人工智能,从大数据到大任务

    导读:本文内容整理自美国加州大学洛杉矶分校的朱松纯教授在 2019 北京智源大会上的主题演讲<走向通用人工智能:从大数据到大任务>. 作者:朱松纯 来源:AI科技大本营(ID:rgznai ...

  7. 用大智慧实现大数据的大价值

    大数据被称为"碎片中的智慧",被视为驱动新一轮技术革命的关键力量,正在走进并深刻影响我们的生活.在新形势下,如何理性认识大数据,准确把握其带来的机遇,用大智慧实现大数据的大价值,值 ...

  8. 什么是大数据?大数据用来干嘛?

    1.何为大数据? 大数据是指很多很多的数据,主要源于web2.0之后,数据库中的数据量累计起来很庞大,在对数据进行操作(主要指查询)会变得很慢,对机器的性能要求会很高,如果数据量达到足够大(如十几亿) ...

  9. 盘点 | 2020大数据十大关键词与趋势新鲜出炉

    大数据技术在2020年继续取得高速的发展,并且在大数据相关的每个细分环节都有不同的创新的点.接下来让我们先来回顾一下,2020年大数据十大关键词,以此探寻大数据领域背后的大事件与规律. 2020大数据 ...

  10. 一篇文章带你了解大数据生态圈---大数据组件图谱

    小编一篇文章带你了解大数据生态圈-大数据组件图谱 转载地址:http://blog.csdn.net/u010039929/article/details/70157376 文章目录 小编一篇文章带你 ...

最新文章

  1. 王者荣耀装备测试软件,王者荣耀首度公开5v5 PVP自动化测试方案
  2. c#加粗代码_RichTextBox,怎么用c#代码根据Index和Length指定的范围的内容进行变色或加粗处理?...
  3. 一文了解 2018年最火爆的30个机器学习项目
  4. flask 常见关系模板代码
  5. sqlserver查询当月的每一天_SQLServer 查询最近一天,三天,一周,一月,一季度数据的方法...
  6. 个人常用word技巧----平时编辑word能快不少~
  7. display:table和display:table-cell的妙用
  8. 分布式Session解决方案_Spring Session + Redis
  9. 五大react生命周期使用注意事项,绝对干货
  10. python网络通信基础-udp+NetAssist(网络调试助手)
  11. 频繁切换网卡,一款快速设置IP地址的工具,爽到爆。
  12. 基于PT2001 的4缸发动机 DFI 控制讲解3 - DCDC部分
  13. Spring-IOC 解耦详解
  14. Kubernetes API Aggregation在 Master 的 API Server 中启用 API 聚合功能注册自定义 APIService 资源实现和部署自定义的 API Serv
  15. CAD偏移曲线(网页版)
  16. MATLAB——复数运算
  17. jQuery - 小鸟系列之DOM操作
  18. 惠普服务器如何选择光驱启动不了系统,如何设置光盘启动,小编教你惠普笔记本如何设置光盘启动...
  19. CloudCC生态软件包开发教程-李育红-专题视频课程
  20. VMware15中安装Linux详细教程

热门文章

  1. php 未定义偏移,错误php未定义的偏移:2-3-4等
  2. mysql tx read only_DB为何大量出现select @@session.tx_read_only 详解
  3. seekbar垂直放置_android GridLayout
  4. PHP如果查询结果为空,php – 如果子查询的结果为NULL,则整个查询失败
  5. Xlim函数--Matplotlib
  6. 转 oracle 监控执行计划突然变化
  7. OneProxy中间件生产使用经验视频分享
  8. RedHat 5.6_x86_64 + ASM + RAW+ Oracle 10g RAC (二)
  9. Office 365系列(6)------Stage Migrate 搬迁方式至O365上来方法及步骤总结
  10. 谷歌怎么找ajax请求,谷歌浏览器 - GET ajax请求失败