大型语言模型正在帮助科学家与人工智能交谈,甚至产生潜在的药物靶点。

近几个月来,世界大部分地区都被OpenAI的ChatGPT等文本生成引擎的出现所震惊,人工智能(AI)算法能够生成看起来像是由人类编写的文本。虽然像微软和谷歌这样的科技公司专注于使用此类引擎来改善搜索,而其他人则担心它们可能会导致大量抄袭文章、假新闻和糟糕的诗歌的出现,但生物技术公司正在研究这些算法来支持他们的业务,从而促进药物发现。

已经依赖人工智能寻找新药的生物技术公司可以将文本生成作为一种简单、直观的方式,与其他一些人工智能和机器学习工具进行互动。Andrew Beam是哈佛大学公共卫生学院流行病学系的科学顾问,他称ChatGPT是“一个非常有趣的界面”,它允许用户比当前的界面更容易地使用其他形式的人工智能。

例如,纽约和香港的Insilico Medicine是一家通过其人工智能驱动的平台搜索潜在药物靶点的公司,现在正在使用ChatGPT作为与其靶标发现平台交互的新方式,增强知识图谱提供的关系和集成 - 以前是整合数据的主要方法。计算化学家Petrina Kamya是Insilico Medicine的AI平台负责人兼总裁。他说,由于ChatGPT,他们可以与自己的发现系统进行对话:''而不是点击,点击和点击,你只需要问一个问题,它就会组成你阅读和理解的文本。''

除了使用聊天机器人来帮助制作书面材料,如论文、专利或授权申请外,其他人还可以将它们专门用于药物发现-作为一种专门针对生物科学的高级搜索引擎。“我们可以有一个更具体的,例如,Bio ChatGPT或Med ChatGPT,''阿拉巴马大学伯明翰分校的计算化学家Lurong Pan说,他是Ainnocence的创始人兼首席执行官,Ainnocence是一个拥有帮助药物发现平台的生物技术公司。''这可能会改变人们的搜索方式。例如,谷歌和DeepMind今年早些时候发布了Med-PaLM,这是一个旨在为医疗问题提供答案的聊天机器人。

所有这些聊天机器人都基于大型语言模型(LLM),该算法经过从互联网收集的数百万个文本示例进行训练。LLM是一种生成AI——能够创建以前不存在的数据。对于文本,LLM学习单词之间的统计关系。然后,给定诸如问题之类的提示,它们通过预测哪个单词最有可能跟随前一个单词来生成文本。结果似乎非常自然,尽管聊天机器人经常做出与现实不一致的陈述-“幻觉”事实。ChatGPT基于名为Generative Pre-train Transformer的LLM,Med-PaLM借鉴了Google的Pathways Language Model,,而Bard是Google正在将其纳入其搜索引擎的更通用的聊天机器人,依赖于对话应用程序的语言模型(LaMDA)。

Kamya说:''这些LLM已经被证明对寻找药物的人有用''。以前,Insilico平台的用户能够查看知识图谱,这是与特定疾病相关的基因的可视化表示,以及已知与这些基因相互作用的物质。这是有用的信息,但研究人员使用它的方式是有限的。现在,随着聊天功能的增加,数据变得更容易访问。Kamya说:''能够与该工具进行对话非常有用。如果你能够以你想要的方式查询我们的生物医学知识图,它会变得'更有趣''。

例如,如果一个科学家想调查牛皮癣,聊天功能可以查看该疾病的知识图。它将提供一个文本描述,包括涉及牛皮癣的主要信号通路和基因,以及已知的与它们相互作用的化合物。然后,用户可以提出任何问题 - 例如,''这个图中有多少个基因?''- 并获得即时响应,或者寻找基因与特定疾病(如肉瘤)之间的关联。名为PandaOmics的Insilico平台显示肉瘤的顶级靶基因是PLK1。用户可以进一步询问,请求链接到特定途径 - 例如细胞凋亡 - 并立即得到答案。

ChatGPT 生成对话输出。然后,Insilico使用多年来收集的根据自己的数据训练的其他预测AI程序来验证聊天中出现的内容。因此,''我们的输出非常准确'',该公司创始人兼首席执行官Alex Zhavoronkov说。Zhavoronkov的母语不是英语,他也使用ChatGPT来帮助他在撰写论文时提高语法,他最近因为通过将ChatGPT列为期刊文章的合著者而引起了争议。

科学家们还发现,llm有助于连接数据并以不同的方式表示数据。''总部位于英国牛津的制药技术公司Exscientia一直在试验LLM,将普通的英语陈述翻译成精心构建的机械断言,以帮助生成他们的知识图谱'',该公司的首席技术官Garry Pairaudeau说。

LLM仍在不断发展,开发人员正在以惊人的速度添加功能。十二月发布的ChatGPT基于OpenAI的GPT 3.5版本。更新 GPT-4 于三月月中旬发布,性能大大优于其前身。三月底,ChatGPT增加了一个所谓的检索插件,可能对药物发现特别有用。这是一个允许软件搜索个人或公司文档的模块,伦敦人工智能驱动的生物技术公司BenevolentAI的首席技术官Dan Neil对此感到兴奋,因为它可以根据公司自己的数据定制聊天功能。''如果你有一个专门的分析,你写下来并在公司内部文件中描述,你可以说,'嘿,看看我们在内部得到的这些结果,这如何更新你的想法?你能找到或想象生命科学中的其他新方法,这些方法实际上利用了我们发现的这些信息吗?',''他说。

尽管名字不同,但语言模型不需要接受英语或其他人类语言的训练。同样的,对统计关联的衍生技术也可以应用于DNA或蛋白质序列的“语言”。然后,它们可以产生新的蛋白质,而不是一个新的句子,这可能会成为很好的药物靶点。“这是同样的想法,”Beam说,“但我们展示的是生物数据,而不是来自互联网的文本。”

有些人担心,训练人工智能系统设计很有可能击中目标的分子需要大量数据,这些数据由人类手工标记。这样的收集并不总是即将推出,因为定期提供这些信息的公司并不总是热衷于分享它。Pan说:''允许ChatGPT写句子的同样的方法可能会为新的分子设计提供完美的解决方案。一个提供了大量未标记数据的语言模型——比如UniProt数据库中包含的近2.5亿条蛋白质序列——可以自己推导出分子构建块之间的正确关系。''

Bioxcel治疗公司使用人工智能来识别在第二阶段或第三阶段试验中,甚至在批准后被搁置的药物,该公司正在考虑LLM从不同的数据库中挑选出潜在的化合物。但是,神经科学家兼该公司首席战略官Frank Yocca说:''只有当LLM适合Bioxcel的人工智能工具套件时,它们才会被证明是有价值的。现在,就你得到的东西而言,它不是很准确'',他警告说。''但我们正处于起步阶段。''

确保结果准确并避免人工智能幻觉的一种方法是尼尔所说的“证据浮出水面”。当LLM产生它声称是事实的东西时,他的公司添加了一种算法来提供引用和参考来支持这一点。他们的系统使用语义搜索(一种评估单词含义的方法)从论文和生物学文本中提取支持断言的句子。该系统从数百万份文档中选择一些相关句子,并将它们呈现给人类专家,然后人类专家可以查看这一小部分数据来判断所谓的事实是否真实。

Yocca说,人们可能会被最新技术所诱惑,而忽视它是否真的有助于他们实现目标。他说:''你只要让机器去做你想做的事情,而不一定能给你一个功能性的答案,就会消耗你,我们尽量避免这种情况。”

不是每个人都加入了ChatGPT的潮流。“基本上我们已经拥有了生成我们想要的东西的所有工具,我们已经在探索很多信息,我们现在并没有试图扩展更多,”巴黎Enterome免疫学研究负责人Joao Magalhaes说。首先,他担心提供患者信息来训练LLM可能会损害隐私。

不过,他并不反对采用新的人工智能技术。例如,该公司使用AlphaFold,这是DeepMind开发的人工智能系统,该系统可以观察氨基酸序列,并使用这些序列来预测蛋白质的三维结构,包括许多以前未知的结构。''这对我们来说是一个巨大的进步,''Magalhaes说。他将密切关注ChatGPT,如果它看起来可能有用,公司将考虑采用它。

Beam指出,其他类型的生成人工智能,例如可以从随机噪声中创建图像的扩散模型,已经进入生物学领域。因为这些模型可以创建蛋白质结构的新图像,所以它们''可以说是药物发现和药物开发的更直接的路线'',Beam说。

他说,如果不出意外,ChatGPT的兴起使人们广泛意识到生成人工智能的潜力,并鼓励生物技术公司仔细研究。“ChatGPT让每个人都意识到的是生成模型的力量,”Beam说。

文献来源: nature biotechnology Volume 41 | May 2023 | 585–596 | 586

-------------------------------------------

欢迎点赞收藏转发!

下次见!

NEWS|药物发现公司正在定制ChatGPT:方法如下相关推荐

  1. 计算机虚拟筛选方法,药物发现的虚拟筛选基本方法 .ppt

    药物发现的虚拟筛选基本方法 .ppt 药物发现的虚拟筛选方法;讲述内容;第一节 概述;计算机模拟与化学合成.生物测试的结合构成了后基因组时代新药研究的新策略.从已有的化合物,包括合成化合物和天然产物中 ...

  2. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  3. 拜耳与Recursion联手加强数字化药物发现

    2020 年9月9日,拜耳与总部位于美国的Recursion 公司(一家从事药物发现产业化的数字生物学公司)已达成战略合作协议.该合作伙伴关系将利用Recursion专门构建的人工智能指导的药物发现平 ...

  4. 阿尔茨海默氏症救星!经典+量子混合方法加速药物发现

    (图片来源:网络) 本月,阿尔茨海默氏症的世界被lecanemab震撼了,lecanemab是由美国生物技术公司Biogen与日本制药公司Eisai合作开发的治疗方法.研究表明,对于那些还在困扰着人类 ...

  5. 百度发力AI药物发现领域,“AI生态型”公司“名副其实”?

    文|智能相对论(aixdlun) ​作者|青月 1956年,达特茅斯会议正式提出了AI的概念.六十多年过去了,AI行业起起伏伏,历经三起三落,在今年两会期间,AI再一次成为重要议题.在AI产业热闹非凡 ...

  6. Survey | 基于图卷积网络的药物发现方法

    本期介绍2019年6月发表在Briefings in Bioinformatics的综述,该综述由康奈尔大学等机构的研究人员撰写,系统总结了GCN及其在药物发现方面的最新进展,重点是与药物相关的应用: ...

  7. 2022年人工智能在药物发现领域的技术进展

    2023年1月3日,知名AI制药公司Relay Therapeutics首席数据官Pat Walters在其个人博客回顾和总结了2022年人工智能在药物发现领域的技术进展. Walters将这些进展归 ...

  8. 诺奖得主联合创办新药物设计公司,开启GPCR下一个「黄金时代」

    GPCR(Gprotein-coupled receptor, G 蛋白偶联受体)是人体内最大的细胞膜表面受体家族,也是药物开发领域最为热门的靶点之一.不过,GPCR 药物开发也面临着构象复杂.不同之 ...

  9. AI促进药物发现:未来是多细胞研究

    Phenomic AI的Sam Cooper博士和Michael Briskin讨论了人工智能(AI)如何使他们能够针对多细胞相互作用进行药物开发. 许多预后最差的癌症由于其免疫抑制性的微环境而对免疫 ...

最新文章

  1. restful url 设计规范_restFul接口设计规范
  2. 【“零起点”--百度地图手机SDK】如何添加地图图层+按钮事件+水平垂直布局?...
  3. CuteEditor 编辑器的字体样式无法控制的问题解决
  4. base64 长度补全
  5. python项目归纳总结-python商城项目总结
  6. 第一次听人用男女关系讲 N(Non-Blocking)I(进)O(出),涨姿势了
  7. vmware设置centos虚拟机nat联网(转)
  8. 给大学生分享一下我的编程人生
  9. 怎么判断一个字符串的最长回文子串是否在头尾_【Leetcode每日打卡】最长回文串...
  10. oracle如何往dg加盘_oracle 在物理机上添加磁盘操作
  11. 防抖与节流方案_前端ajax优化解决方案
  12. 网工视频13第13章.计算机系统开发运行与配置疑难问题
  13. xml转java代码_java 中xml转换为Bean实例解析(纯代码)
  14. centeros mysql_center os 7 Mysql 安装
  15. 双系统在linux中修复引导文件,windows ubuntu双系统重装后修复grub引导
  16. yum指令安装失败,或导致图形界面黑屏如何解决
  17. Directshow 采集-截屏和显示
  18. 52周存钱挑战(Python)
  19. 苹果手机设置信任软件
  20. 注册表终极修改ie主页的方法

热门文章

  1. 示波器的三种触发模式详解
  2. 23种设计模式——策略模式
  3. 奥比中光Orbbec Astra-Mini RGB-D 3D体感摄像头在ROS(indigo)使用简介
  4. 2018总结-股权众筹和P2P网贷
  5. java工程师个人学习计划
  6. NOIP 好题推荐(DP+搜索+图论)POJ ZOJ
  7. 游戏设计师修炼之道:数据驱动的游戏设计
  8. 给定一个Email地址判断是否合法
  9. MMC卡的安装与使用注意事项
  10. 瑞芯微RK3568系列-飞凌嵌入式FET3568-C核心板已发布