羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

腾讯把BERT方法用于单细胞注释技术,还登上了Nature子刊

能辅助医生精准治癌的那种。

此次聚焦的单细胞RNA测序(scRNA-seq)技术,一直被称为生命科学领域的的革命性工具,对于“精准医疗”具有极高的应用价值。

但是,以前受制于数据样本量小、人工干预多等因素,一直难以推广使用。

这次腾讯首次将“transformer”应用到该领域,使其真正实现了高解释性高泛化性高稳定性

目前,该模型已在GitHub上开源 (链接附在文末)。

新模型怎么做到的?

众所周知,人类各种组织之间细胞的类型、状态和相互作用差异巨大。

单细胞RNA测序技术的出现,可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),堪称给细胞中的每个基因都印上专属“身份证”。

通过这一技术,研究人员可以更好地研究这些组织及其中存在的不同类型的细胞。

更进一步地说,还可以更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果。

但是,受数据样本量小、人工干预多、过度依赖marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法也难以有更广泛的应用。

具体来说,人工注释费时、主观性强、误差大、不利于发现新的细胞类型;机器注释则经常出现在一个检测组织里有效,换到另外一个检测组织里就没效的问题,还是需要人工参与。

为此,研究人员开发了一种基于预训练深度神经网络的模型:scBERT模型,并首次将“transformer”运用到单细胞转录组测序数据分析领域。

scBERT模型,顾名思义是基于BERT的思路和范式。

在预训练数据选择上,为了保证全基因组内基因级别的可解释性,scBERT没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息。

此外,该模型复用了大规模的公开数据集,包含不同实验来源、批次和组织类型的单细胞数据,以保证模型能学习到更为“通用”的知识,精准捕获单个基因的表达信息及两两基因之间的作用关系。

在实验中,scBERT模型也证实了其在单细胞测序上呈现出的高解释性、高泛化性、高稳定性。

截至目前,通过了9个独立数据集、超过50万个细胞、覆盖17种主要人体器官和主流测序技术组成的大规模benchmarking测试数据集上,该算法模型的优越性均得以验证。

值得一提的是,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的70%准确度提升了7%。

不仅如此,这一技术的突破在实际应用中也有很重要的价值:

未来可用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。

同时,对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。

研究团队

研究团队主要来自腾讯AI Lab,共同一作有三位:Fan Yang、Wenchuan Wang和Fang Wang。

研究人员称,未来他们会继续基于自身先进AI技术的积累,与下游临床、制药和生命科学基础研究领域进行密切合作。

GitHub链接和论文链接放在文末,感兴趣的小伙伴可以自取~

GitHub链接:
https://github.com/TencentAILabHealthcare/scBERT

论文链接:
https://www.nature.com/articles/s42256-022-00534-z#Abs1

腾讯新研究登Nature子刊,让细胞与计算机直接“对话”,还能辅助医生精准治癌...相关推荐

  1. 19个神经元控制自动驾驶汽车,MIT等虫脑启发新研究登Nature子刊

    本文经机器之心(almosthuman2014)授权转载,禁止二次转载. 选自Medium 作者:Louis Bouchard 机器之心编译 编辑:魔王.泽南 这种新型智能系统模仿线虫的神经系统来高效 ...

  2. 李飞飞团队新研究登Nature子刊!实现可信 AI,数据的设计、完善、评估是关键!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 数据的设计.完善.评估三大步骤是关键. 转载自:AI科技评论  作者 | 李梅.王玥  编辑 | 陈彩娴 在 ...

  3. 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊

    作者 | 李梅.王玥 编辑 | 陈彩娴 转自:AI科技评论 在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变得尤为重要. 在以往的 AI 开发流程中,数据集通常是固定的,开发 ...

  4. 红外倒车雷达原理图_斯坦福研究登Nature子刊:芯片实现激光雷达技术,价格低至数百美元...

    一直以来,是否采用激光雷达都是区分自动驾驶技术派系的「三八线」,相比 Waymo.Cruise 等中规中矩采用激光雷达方案的传统派,马斯克一直秉持着 AI 视觉方案+毫米波雷达取代激光雷达的思路. 这 ...

  5. 清华研究登Nature子刊:面向大规模预训练语言模型的参数高效微调

    ©作者 | 机器之心编辑部 来源 | 机器之心 近年来,清华大学计算机系孙茂松团队深入探索语言大模型参数高效微调方法的机理与特性,与校内其他相关团队合作完成的研究成果"面向大规模预训练语言模 ...

  6. 纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法

    纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法 2021-01-07 15:54 新基因组组装是基因组学最重要的任务之一.三代测序技术(PacBio ...

  7. 用反向传播算法解释大脑学习过程?Hinton 等人新研究登上 Nature 子刊

    机器之心报道 魔王.Jamin.杜伟 反向传播可以解释大脑学习吗?近日 Hinton 等人的研究认为,尽管大脑可能未实现字面形式的反向传播,但是反向传播的部分特征与理解大脑中的学习具备很强的关联性.该 ...

  8. 腾讯 AI 医学进展破解“秃头”难题,登 Nature 子刊!

    整理 | 夕颜 出品 | CSDN(ID:CSDNnews) 人到中年,也许不到中年,不少人就已经被秃头问题困扰,贵为英国皇室,也没办法阻挡秃头这项"光荣的家族传统".很多人认为, ...

  9. 腾讯 AI 医学进展破解“秃头”难题,登 Nature 子刊![转载]

    人到中年,也许不到中年,不少人就已经被秃头问题困扰,贵为英国皇室,也没办法阻挡秃头这项"光荣的家族传统".很多人认为,连皇家都治不了这种历史源远流长的疾病,看来那就不是差钱的事,秃 ...

最新文章

  1. 安装、登录centos7
  2. Oracle 双机热备 镜像 纯软 实战 配置教程 配置手册
  3. 责任链设计模式(过滤器、拦截器)
  4. QUIC实战(三) letsencrypt证书申请和自动续期
  5. 哪吒:猪八戒十年DevOps演进之路
  6. 谈谈C#中的三个关键词new , virtual , override
  7. 一些图像处理函数用法
  8. struts2文件下载及文件名中文问题
  9. html拾色器没效果,用html和js写一个拾色器
  10. python输入两个数 求和_Python两数相加
  11. 蓝牙协议层 GATT ,GAP,ATT 之间的关系
  12. 对未来人工智能的一些预测和想法
  13. android 自动发彩信,Android编程实现定时发短信功能示例
  14. 方差分析介绍(结合COVID-19案例)
  15. 一技随身计算机作文,生活技能作文(精选9篇)
  16. 怎么用svg画一个圆圈(一)
  17. 我同学——应聘阿里巴巴之经过
  18. elasticsearch-数据聚合
  19. Easter Eggs
  20. 2019中国开源年会总结

热门文章

  1. 获取(检测)电脑硬件信息(C++)
  2. RS232电平、CMOS电平、TTL电平是什么,区别是什么?
  3. VCM(音圈)马达驱动IC
  4. I-Penguins
  5. IDEA的使用总结篇-1
  6. 第9节-偏差与方差、联合界定理和一致收敛定理
  7. h3c 三层交换机snmp 团体名称配置
  8. 矩阵论——施密特正交化求行列式QR分解
  9. ThreadPoolExecutor详解
  10. BUCK电路工作原理阐述