斯隆奖获得者李婧翌：AI+X并非总是有效，生物数据量小、噪音大，可解释性是关键...

智源导读：在过去20年中，由于实验技术的发展，生物领域数据出现爆发式增长，同时推动了生物学科的定量化研究。因此，如何从数据中挖掘出有意义的生物学发现，已经成为生物学领域重要问题之一。

加州大学洛杉矶分校（UCLA）统计系的李婧翌教授的研究目标正是为解决这一问题，即针对前沿生物学问题，开发新的统计学方法。

随着深度学习技术的普及，李婧翌的研究团队也高度关注这一研究领域的发展。但正如她所说，当前的AI模型往往需要样本量大、噪音小的数据，并且其模型的可解释性也往往不及简单的统计模型。

因此，尽管AI+X在人工智能社区呼声很高，但似乎并非所有X领域的研究都非AI不可。

本文为首篇「青源研究组」成员访谈/约稿文章。

撰文 | 李婧翌, 蒋若尘, 席楠, 闫冠傲

李婧翌，加州大学洛杉矶分校（UCLA）统计系终身副教授，2018年斯隆奖获得者，入选《麻省理工科技评论》“35 岁以下科技创新 35 人”（Innovators Under 35）2020 年中国区榜单。

“对我而言，回答了心中的问题或者做出了新的发现，这种成就感要远高于生活中的其他快乐。”

——李婧翌

基本研究思路

在过去的20年中，新的生物学实验技术促使生物学在定性的、观察性的研究之外，还能定量地、更精确地研究生物体在细胞和分子层面的变化。通过这些实验技术手段得到的定量信息，我们称之为高通量生物数据，譬如由第二至三代测序技术产生的基因组、表观遗传学和转录组数据。

高通量生物数据的分析充满着挑战，而且不断更新迭代的实验技术会产生新的数据类型，从而往往需要新的计算方法。

然而，在目前的AI前沿研究中，大家的重点在于使用复杂模型比如深度神经网络来提高预测精度，但目前复杂模型在生物数据中的成功应用仍具有局限性：

首先，复杂模型的训练通常需要样本量大、噪音小的数据，比如使用核酸序列来预测蛋白质结合位点，以及使用氨基酸序列来预测蛋白质结构等；

其次，同简单模型比，复杂模型在可解释性方面并无明显优势。

由于生物学数据存在样本量小、噪音大的问题，因此李婧翌团队目前的研究仍着重于使用可解释性较好的统计学模型来开发计算方法。

原因在于，解释性好的模型能让我们容易分析模型和数据吻合的程度，以及不吻合的原因（究竟是数据噪音还是生物学信号）。

研究方向 1：提高数据分析可靠性

现阶段在生物数据计算中主要存在的一个问题是，很多新提出的计算方法缺乏统计学意义上的严谨性，使用这样的方法会阻碍科学发现的可重复性和可靠性，从而影响科学和医疗的进步。

而统计学的重要目标之一就是提高数据分析的严谨性和可靠性。

譬如，为了控制在多次假设检验中的假发现率（false discovery rate，即被检测检验判断为阳性的结果中真实条件为的阴性的比例），统计学家提出了基于假设检验 p 值的计算方法，比如著名的 Benjamini-Hochberg 算法和 Storey q-value 算法。

尽管此类计算方法在生物学数据的分析中已经被广泛使用，但一个常见的问题是，很多针对新数据类型开发的计算方法无法或者很难给出正确的p值（即真实结果应为阴性条件下的p值并不服从在0到1之间均匀分布的理论要求），其重要原因在于生物数据往往样本量过小（通常不大于3），从而使得计算p值需要的概率模型假设很难被验证。而采用不正确的p值会造成假阳性率过高或检验效力（power）过低，从而严重影响分析结果的可靠性。

针对这一普遍性的问题，李婧翌研究团队提出了一种新的计算方法(Clipper[1])，使用户能在无需计算p值的情况下直接控制高通量数据分析中的假阳性率（该工作由博士生戈心舟和陈怡翎主导完成）。

图注：Clipper和三种常用的FDR控制方法的说明

Clipper的优势在于无需对数据分布进行参数化的假设，从而适用于样本量小的情况，避免了p值计算的难点，并节省了p值计算的时间。

李婧翌团队目前正致力于将Clipper应用于多种类型的生物数据分析，譬如识别全基因组层面的差异表达基因和蛋白质结合位点。

除了假设检验，李婧翌还和南加州大学的童欣教授、纽约大学的冯阳教授合作开发了对机器学习二元分类算法实现群体层面假阳性率（或假阴性率）控制的Neyman-Pearson通用算法[11]。

此算法可以帮助用户对二元分类算法找到一个合适的阈值，从而使得分类器在群体层面的假阳性率或假阴性率（即更严重的一类错误，譬如把恶性肿瘤误判为良性）被控制在用户期望的小概率（如百分之五）以下。

以上两个工作分别是针对多次假设检验和二元分类问题，尽管在统计和机器学习中，这两个问题的区分不言而喻，但在实际应用中，一个生物医学的数据分析问题究竟是更适合被当做多次假设检验问题还是二元分类问题，往往并不一目了然。针对此问题，李婧翌写了一篇讨论文章，从而为数据分析人员提供指南[12]。

研究方向 2：对计算方法进行评测

另一个在目前生物数据分析中存在的问题是，对于同一类型的数据通常存在着多个为了同一个目标而开发的计算方法，因此从用户的角度而言，如何去选择合适的计算方法是一个难题。

譬如，在当前热门的单细胞RNA测序数据的分析中，一个重要的计算问题（doublet detection）是如何识别出数据中的“假单细胞”，即多于一个细胞被包含进入一个反应体因此被实验误判为一个细胞的情况。

针对这一问题，目前已有十种已发表的计算方法，但是这些方法的相对优劣以及适用范围对用户而言并不清楚。

现实情况是，后发表的方法通常会宣称其优于之前的方法，但是这样的结论往往缺乏第三方的验证。

针对这一问题，李婧翌研究组对doublet detection方法进行了全面的评测，从而为单细胞研究人员就该问题的方法选择提供了指导（该工作由博士生席楠完成） [2]。

图注：计算方法评估

此外，为了进一步公平化计算方法的评测和优化实验参数（测序的细胞数目和深度）的选择，李婧翌团队开发了单细胞仿真数据模拟器(scDesign[3], scDesign2[4])。

第一版本scDesign由前博士生李维完成，李维目前是罗格斯大学(Rutgers University)的助理教授。

第二版本scDesign2可以产生模拟真实数据中基因表达的相关性的仿真数据，由博士生孙天毅完成。

研究方向 3：基因测序数据的计算方法

除以上工作之外，李婧翌团队还开发了一系列关于基因测序数据的计算方法。

■ 博士生宋东源开发了用于分析单细胞中基因表达随着细胞状态变化的工具PseudotimeDE [5]，其优势在于可以提供正确的p值。

■ 博士生宋东源和李可欣开发了从单细胞高通量基因表达数据中挑选用户指定数目的标志性基因的scPNMF方法，该方法可用于指导对更准确、更便宜的单细胞低通量基因表达测量实验的设计（即如何选择测量的基因使得实验数据更有信息量）[13]（即将在ISMB/ECCB 2021会议和Bioinformatics杂志发表）。

■ 针对单细胞和微生物测序数据中存在很多缺失值的问题，前博士生李维和现博士生蒋若尘分别开发了两种针对数据特征的补齐方法[6,7]。这些方法通过提高数据的质量来帮助后续的数据分析。

■ 针对第二代测序数据无法测出信使核糖核酸（mRNA）的全长序列的技术局限，李婧翌和前博士生李维开发了多种统计方法来实现从数据中推测全长mRNA的序列和表达量[8, 9,10]。

相比其他方法，以上方法更着重于对数据中噪音的考量以及对分析结果的假阳性的控制，从而使得研究者可以更加准确地对第二代测序数据进行全长mRNA层面的分析。

愿景

在未来很长一段时间内，基于高通量生物数据的定量研究会在生物医学中发挥更重要的作用。

不断进步的实验技术会产生更多，更精确的生物数据，随之而来的是对更严谨的计算方法的需求。

通过定量化的研究，在未来，我们希望可以通过计算机和AI技术来模拟一个生物体内部的变化，从而能更好地了解各种生物，包括人类自身。同时，我们希望能通过计算方法来分析药物的作用，从而为治疗疾病设计更精确的药物。

相关研究论文

[1] Ge, X., Chen, Y. E., Song, D., McDermott, M., Woyshner, K., Manousopoulou, A., ... & Li, J. J. (2020). Clipper: p-value-free FDR control on high-throughput data from two conditions. bioRxiv.

[2] Xi, N. M., & Li, J. J. (2021). Benchmarking computational doublet-detection methods for single-cell rna sequencing data. Cell systems, 12(2), 176-194.

[3] Li, W. V., & Li, J. J. (2019). A statistical simulator scDesign for rational scRNA-seq experimental design. Bioinformatics, 35(14), i41-i50.

[4] Sun, T., Song, D., Li, W. V., & Li, J. J. (2020). scDesign2: an interpretable simulator that generates high-fidelity single-cell gene expression count data with gene correlations captured. bioRxiv.

[5] Song, D., & Li, J. J. (2020). PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data. bioRxiv.

[6] Li, W. V., & Li, J. J. (2018). An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nature communications, 9(1), 1-9.

[7] Jiang, R., Li, W. V., & Li, J. J. (2020). mbImpute: an accurate and robust imputation method for microbiome data. bioRxiv.

[8] Li, W. V., Li, S., Tong, X., Deng, L., Shi, H., & Li, J. J. (2019). AIDE: annotation-assisted isoform discovery with high precision. Genome research, 29(12), 2056-2072.

[9] Li, J. J., Jiang, C. R., Brown, J. B., Huang, H., & Bickel, P. J. (2011). Sparse linear modeling of next-generation mRNA sequencing (RNA-Seq) data for isoform discovery and abundance estimation. Proceedings of the National Academy of Sciences, 108(50), 19867-19872.

[10] Li, W. V., Zhao, A., Zhang, S., & Li, J. J. (2018). Msiq: Joint modeling of multiple rna-seq samples for accurate isoform quantification. The annals of applied statistics, 12(1), 510.

[11] Tong, X.*, Feng, Y.*, and Li, J.J. (2018). Neyman-Pearson classification algorithms and NP receiver operating characteristics. Science Advances 4(2):eaao1659.

[12] Li, J.J. and Tong, X. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.

[13]Song, D., Li, K.A., Hemminger, Z., Wollman, R., and Li, J.J. (2021). scPNMF: sparse gene encoding of single cells to facilitate gene selection for targeted gene profiling.

欢迎申请加入「青源研究组」，在这里你可以：

结识研究伙伴：参与青源会专属线下活动及线上交流群，与杰出学者面对面，结识合作者；
探讨前沿课题：打破研究领域固有边界，探索新问题，碰撞新思想，提出新方法；
开展紧密协作：参与青源学术研究与社区系统构建。

斯隆奖获得者李婧翌：AI+X并非总是有效，生物数据量小、噪音大，可解释性是关键...相关推荐

斯隆奖获得者李博：从博弈论出发，和「偶像」并肩的感觉很好 | 青源专栏
导读:在「STOP」路牌上贴图进行扰动,机器便无法在较远处正确识别路牌.这是李博团队展出在英国科技博物馆的工作,这一类工作关乎现实物理世界中的攻击,在自动驾驶.医疗,甚至日常网站上的恶意交易等领域均有 ...
MIT造了个“小盒子”，可以无线监测新冠患者症状，斯隆奖获得者班底打造
白交发自凹非寺量子位报道 | 公众号 QbitAI 只需要一个"小盒子",就可以监测新冠患者症状? 最近,MIT计算机科学与人工智能学院(CSAIL)斯隆奖获得者Dina ...
UCLA李婧翌：女性最不需要做的就是「怀疑自己」| 妇女节特辑
她力量近年来,"她"力量正在科学家群体中快速升温. 在一年一度的妇女节到来之际,智源社区选取了五位颇具代表性的女性科学家,进行了深度访谈.在她们中,有人选择食物图像识别,对选择的 ...
他是清华姚班的天才少年，17 科满分传奇，32 岁斩获“诺贝尔风向标”斯隆奖...
本文经授权转载自微信公众号:量子位 ,原作者:李根,转载请联系出处. 当我们在谈论天才时,我们究竟在谈论什么? 是他们先天就有的聪慧.原生家庭的影响,还是在求学受教中不断得以循循引导的环境? 今天要介 ...
清华姚班校友马腾宇斩获斯隆奖！与鬲融师承一脉，李飞飞点赞祝贺
杨净发自凹非寺量子位报道 | 公众号 QbitAI 最近,有着"诺奖风向标"之称的斯隆研究奖公布. 此次共有128名来自物理学.数学.计算机等领域的研究者获得,一经发布就在 ...
李远志为清华姚班蝉联斯隆奖！北大唐云清和中科大田小川同期加冕
Pine 发自凹非寺量子位 | 公众号 QbitAI 继鬲融马腾宇陈丹琦后,又有一位清华姚班校友荣获斯隆研究奖: 他就是李远志! 斯隆研究奖,素来有"诺奖风向标"的称号,获得这 ...
清华姚班校友陈丹琦斩获2022斯隆奖！「诺奖风向标」27位华人学者入选
视学算法报道编辑:桃子拉燕 [新智元导读]刚刚,有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单.今年,共有118名学者当选.值得一提的是,清华姚班毕业的华人科学家陈丹琦位列其中. 刚刚 ...
清华姚校友陈丹琦斩获2022斯隆奖！博士论文是近十年最热之一！共计27位华人入选...
来源:新智元有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单. 今年,共有118名学者获斯隆研究奖,华人学者占27席.他们将获得75000美元,这笔款项可在两年的时间内用于支持其研究的任何费用. ...
清华姚班陈丹琦等27位华人学者获奖，斯隆奖2022年获奖名单颁布！
整理 | 于轩出品 | 程序人生 (ID:coder _life) 近日,素有"诺奖风向标"之称的斯隆研究奖颁布了2022年获奖名单.斯隆研究奖于1955年设立,每年颁发一次,旨 ...

斯隆奖获得者李婧翌：AI+X并非总是有效，生物数据量小、噪音大，可解释性是关键...

斯隆奖获得者李婧翌：AI+X并非总是有效，生物数据量小、噪音大，可解释性是关键...相关推荐

最新文章

热门文章