摘要:本文整理自阿里云行业解决方案架构师马颂(栖逸),在阿里云计算情报局的分享。本篇内容主要分为三个部分:

1.  寻因生物简介

2.  单细胞测序及其痛点

3.  寻因生物基于E-HPC的大内存实例解决方案

01 寻因生物简介

寻因生物创始团队及公司于2018年正式启动组建运营,是一家专注于单细胞技术的生物科技企业。致力于通过自主研发的高通量单细胞产品实验及生信分析全链条服务,将单细胞技术普适化,助力临床诊断和药物研发,推动精准医疗进入2.0时代。

这家成立于2018年,驻扎在北大医疗产业园的初创企业,在2022年1月获得D轮融资,并在上海、广州和成都设立地方实验室。公司面向临床及科研工作者的实际需求,搭建了从样本保存、解离到生信分析的全链条单细胞测序产品及服务解决方案。客户将样本送到寻因生物上海、广州或成都的实验室。

样品采集到之后,在实验室中通过实验进行序列加工和信号放大,将分子循环扩增,给每一个分子和细胞加上标签。辅助识别检测的分子来自哪个细胞、哪个基因。而后通过物流的方式送到北京进行测序。测序的结果上传到寻因的阿里云OSS或通过专线下载到本地,再做单细胞分析。

02 单细胞测序及痛点

单细胞测序作为2009年首次问世的技术,无疑是现在生命科学基础研究的最大热门。2013年单细胞RNA测序被nature method评为年度技术。2015年单细胞测序技术再度登上science转化医学封面。

单细胞测序,顾名思义是在单个细胞水平,对细胞的基因表达等信息进行检测,对于多细胞生物来说,细胞与细胞之间是有差异的。

相对于传统的测序研究,局限于器官与组织。群体细胞的表达水平,最终得到的信号值,丢失了抑制性信息。单细胞测序可以更高分辨率,解释细胞间的差异,及其在环境中的功能情况,防止细胞间的滥竽充数。

该技术已经应用在基础科研、临床诊断、新药研发等各个领域。作为一项高效的医疗辅助手段,基因测序在预防出生缺陷、检测遗传性疾病、肿瘤用药等领域提供了有效帮助。

单细胞测序技术的蓬勃发展,也助力了寻因生物业务起步。公司自2021年3月份商业化销售以来,已与100家客户建立科研合作关系。通过屏幕左侧典型单细胞数据分析的步骤流程图,可以看到,在单细胞测序的最后一步,数据分析环节需要针对单细胞测序数据,进行数据预处理。

比如质控、归一化、数据矫正、特征选择、聚类分析、轨迹分析、差异表达分析、基因动力学、亚稳态分析、成分分析等。仅一个单细胞测序的文件大小可达100GB以上。随着一个单细胞项目包含的样本量越来越多,细胞数据级别往往达到数百GB甚至TB。

其次,单细胞数据的分析复杂需要反复做数据读取和参数调整。导致处理海量细胞样本的分析任务,通常要数小时甚至数天才能完成。

当样品量上来,各个样品之间又要做各种关联,或者是更复杂的计算,对于算力的消耗量就会非常大,对算力的要求更高

超大数据量和分析复杂性会导致任务并发数低,数据加载速率慢。除此之外,生物信息行业缺少一个覆盖全程的开源软件。通常一个生物计算项目需要多个软件配合,随着单细胞检测的成本逐渐降低,应用面越来越广,生信数据将是指数级的增长。

生信分析的惯用操作是将样本参数调低,或者仅运行一个比较大型的单细胞分析任务。但在测序任务多的情况下,多个单细胞分析项目只能排队执行。

03 基于E-HPC的大内存实例解决方案

为了解决上述问题,阿里云为寻因生物搭建了基于E-HPC的大内存实例解决方案。这套方案主要由三部分组成。第一部分是大内存云实例,搭配合作伙伴推出的内存虚拟化软件

2017年,英特尔奥腾SSD推出;2020年,英特尔发布奥腾持久内存100系列,成功完成大规模的商业化;2021年,英特尔发布第三代英特尔至强可扩展处理器,及英特尔奥腾持久内存200系列。同年,阿里云基于以上产品开发了性能更加强大的不同实例规格。

其中,I4P能够提供性能极高的本地盘延时可以缩短至170纳秒,非常适用于重IO型应用帮助此类应用突破性能瓶颈。

寻因生物的单细胞测序分析任务,部署在了基于第三代英特尔至强可扩展处理器,和第二代英特尔奥腾持久内存,I4P持久内存型实例上。配合第一款虚拟化内存硬件的软件Memory Machine,对容量、性能、可用性和移动性进行精细化的资源调配。

在透明内存服务的基础上,还提供了另一个行业第一的技术Zero Io内存快照。该技术可以在几秒钟内封装数TB的应用程序状态,并以内存速度实现数据管理。

第二部分,阿里云的计算巢模式。云厂商开放给企业应用服务商和其客户服务管理的PaaS平台。阿里云让Memory Machine大内存虚拟化软件与云平台的标准化集成加速软件交付部署,并标准化运维管理,大幅提升了业务效率。

第三部分,阿里云弹性高性能计算平台E-HPC,可将寻因生物底层使用的不同规格ECS及存储实例自动纳管和调度。一键安装部署生命科学相关的软件及其运行环境。

自动在业务高峰扩容低谷释放,避免资源浪费,大大节省运维成本。此外,E-HPC可将HPC和软件一键安装部署,免去每个实例,分别安装软件的繁复工作。

阿里云的大内存实例解决方案,在以下四方面助力寻因生物业务。

第一,算得快。E-HPC解决方案简化编写流程、监控任务投递,以及任务运算的过程。数据加载和导出性能从1000秒缩至2.5秒;单任务的样本规模是原来的2倍。在运行时间和单任务的运行时间几乎差不多的情况下,测序任务的井发运行数由原来的1个提升到了5个,任务处理效率提升了5倍之多。

第二,成本低。E-HPC保证整体算力的同时,动态创建/删除计算节点,避免了资源浪费;提高作业质量及速度,输出丰富云原生能力支撑ECS支持抢占式实例,OSS支持冷归档:付费模式多元,结合业务的需求及数据保存的性能和周期,支持成本出发的精细化调整。

第三,简运维。E-HPC将寻因生物底层使用的不同规格ECS实例自动纳管与调度,可将生命科学相关的HPC软件及其运行环境一键安装部署,将带有MemVerge软件的ECS实例自动纳管与调度,大大节省运维成本通过阿里云的计算巢蟆式将MemoryMachine大内存虚拟化软件与云平台的标准化集成,加速软件交付部署井标准化运维管理,大幅提升了业务效率。

第四,助生态。阿里云多年深耕生物信息行业,已形成多种服务方案和客户资源,能够为上下游生物科技企业的互联互通提供更多支持寻因,基于阿里云开发出直接向用户提供服务的单细胞分析平台,赋予科研用户和药物研发用户分析单细胞数据的能力。

点击这里,观看嘉宾的演讲视频回放。

阿里云架构师马颂:云上高性能计算助力基因测序相关推荐

  1. 云架构师——云计算成功部署的重要角色

    云架构师--云计算成功部署的重要角色 随着云战略越来越重要和复杂,云架构师可以帮助企业规避风险,并确保向云端的迁移工作成功完成且极具成本效益. 什么是云架构师? 云架构师负责管理一个组织中的云计算架构 ...

  2. 项目管理学习总结(7)——阿里云架构师:技术高手转向管理体会

    云之路的起点 13年7月驻云成立,同样在7月我作为驻云的第一个正式员工加入驻云.我印象深刻的是两件事情,一个是,我面试的职位是云架构师.蒋总面试我,从头到尾仅聊了一个话题,然后就拍板录用了.即一个论坛 ...

  3. 云架构师进阶【企业SAP上云解决方案】 - 手把手教会您SAP在云端部署的规划设计

     01 前言 说起SAP,大家对它的印象是,"全球最佳企业管理软件","超过39万企业级客户遍布全球193个国家和地区","遍布26个行业" ...

  4. 阿里云架构师张先国:揭秘ECS倚天实例背后的技术

    11 月 15 日,阿里云 ECS 倚天实例正式开始商业化.此前,阿里巴巴宣布阿里云未来两年 20% 的新增算力将使用自研 CPU.11 月 5 日,云栖大会"倚天开启云原生算力新时代&qu ...

  5. 阿里云架构师认证考题:面对 10 亿级高并发,系统如何支撑?

    一个工程师,如果不能从架构师的角度思考问题,带领团队,整体完成一个系统的架构设计与开发,就永远也不会了解如何做一个架构师. 最近不少同学给我留言,有晋升的.跳槽的,他们在考核或面试上,都不约而同地提到 ...

  6. 【阿里云】ACE认证流程“或将”于2021更新 ~ 对比华为云架构师认证 ~ 难度或将提高 ~ 含金量提升 ~ 如果雷同,纯属巧合

    [阿里云]ACE认证流程"或将"于2021更新 ~ 对比华为云架构师认证 ~ 难度或将提高 ~ 含金量提升 ~ 如果雷同,纯属巧合 https://www.bilibili.com ...

  7. 云架构师进阶攻略(完整版)

    一.架构的三个维度和六个层面 1.1.三大架构 在互联网时代,要做好一个合格的云架构师,需要熟悉三大架构. 第一个是IT架构,其实就是计算,网络,存储.这是云架构师的基本功,也是最传统的云架构师应该首 ...

  8. 专访驻云CTO肖凯:云架构师必备的技能和知识

    采访嘉宾:肖凯,驻云科技CTO,对云计算特别是公有云技术有很深的理解,已经协助数百家企业客户完成上云转型.曾就职于IBM.EMC,对传统企业IT架构有深刻认识,坚信企业IT的未来是在公有云. 记者:钱 ...

  9. 资深大牛吐血总结:如何成为一名合格的云架构师?

    https://cloud.tencent.com/info/e9695bd18d1c7752b3924bb3ac38cc95.html [51CTO技术沙龙]10月27日,让我们共同探索AI场景化应 ...

最新文章

  1. Mybatis获取插入记录的自增长ID
  2. python实现客户端和服务器端传输图片
  3. 删除rabbitmq的队列和队列中的数据
  4. Schrödinger's Knapsack ZOJ - 4019 线性DP
  5. php 隐藏地址栏,工具栏,php – 我怎么能隐藏#!在浏览器地址栏上?
  6. Java并发编程(05):悲观锁和乐观锁机制
  7. 关于HTML+CSS3的一些笔记
  8. Wavesequencer Hyperion for Mac(数字模块化合成器)
  9. CENTOS 使用 MUTT发送邮件
  10. 【Java】MD5加盐加密
  11. 【NOIP2012-Day2-T2-换教室】
  12. 瞎聊机器学习——朴素贝叶斯以及拉普拉斯平滑
  13. 使用feed,欢迎使用http://feed.feedsky.com/xu_fan_blog订阅
  14. react中使用web worker
  15. Day3 算法基本要素
  16. GitHub哔哩哔哩(bilibili)高清视频下载
  17. 光线追踪学习:GPU端光线追踪学习
  18. usb无线网卡和U盘同时使用
  19. 如何申请百度API Key
  20. 摩拜创始人退出,ofo陷困境,哈罗会成为最大受益者么?

热门文章

  1. 【正则表达式教科书】正则表达式轻松入门知识总结
  2. Mathematica定义函数
  3. NoteBook-深情日记
  4. 大学社团管理系统-毕业论文
  5. idea项目 文件旁边有个小黄时钟解决办法
  6. LCD液晶屏的驱动方式
  7. C# 生成chart图表的三种方式
  8. python蓝桥杯 成绩统计
  9. 毕业选择创业公司的5个原因
  10. Pytorch入门一