出品 | OSC开源社区(ID:oschina2013)

进NLP群—>加入NLP交流群

先划重点:中文医学知识,不是「中医」。

自从 Meta(原 Facebook)的 LLaMA 大语言模型发布以来,相信大家看到了许多以“驼类动物”命名的 LLM。比如斯坦福用了 Alpaca,伯克利用了  Vicuna,Joseph Cheung 等开发者团队用了 Guanaco。

据说南美洲的无峰驼类动物一共就是上图列出的 4 种 —— 已经被各家的大模型命名使用。

不得不承认这些以“驼类动物”命名的 LLM 都很厉害,但如果,我是说如果,我拿出下面这个 LLM,阁下又当如何应对?

没错,正是「华驼」。

见名知意,华驼肯定跟医学有关——这是一个基于中文医学知识的LLaMA 微调模型。

说到这,这个 LLM 的命名很难不让人拍案叫绝,将神医华佗与基于“羊驼”的大语言模型巧妙地结合在一起。

此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。

通过医学知识图谱和 GPT 3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果。

据介绍,医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。知识库示例如下:

{"中心词": "偏头痛",
"相关疾病": ["妊娠合并偏头痛", "恶寒发热"],
"相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"],
"所属科室": ["中西医结合科", "内科"],
"发病部位": ["头部"]}

然后利用 GPT3.5 接口围绕医学知识库构建问答数据,并设置了多种 Prompt 形式来充分利用知识。指令微调的训练集数据示例如下:

"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"

该项目提供模型的训练数据集共计八千余条,需要注意的是,虽然训练集的构建融入了知识,但是仍存在错误和不完善的地方。

基于相同的数据,项目团队还训练了医疗版本的 ChatGLM 模型:ChatGLM-6B-Med。

这些模型在医疗领域的问答效果得到了显著提升,下面是不同模型的效果对比:

由此可见,指令微调在医疗领域具有很大的应用潜力。

同时,该项目还尝试将医学文献的【结论】融入多轮对话,在此基础上对 LLaMA 进行指令微调,以进一步提高模型的实用性。

目前,项目团队只开放针对"肝癌"单个疾病训练的模型参数。未来计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关 16 种疾病训练模型。这将有助于广泛应用于更多疾病的诊断和治疗建议。

下面是训练样本的示例:

华驼项目团队称下一个发布的新模型会被命名为扁鹊 (PienChueh)


进NLP群—>加入NLP交流群

首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)相关推荐

  1. 哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型

    原文: CVHub 门头沟学院AI视觉实验室御用公众号 | 学术 | 科研 | 就业 185篇原创内容 公众号 Title: HuaTuo: Tuning LLaMA Model with Chine ...

  2. 中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索...

    来自:哈工大SCIR 深度学习自然语言处理 分享 进NLP群->加入NLP交流群 1.背景 当前大规模语言模型(Large Language Model)在通用域自然语言处理任务上已获得巨大的成 ...

  3. 图谱实战 | 为什么我们需要医学知识图谱?

    转载公众号 | OMAHA联盟 人工智能正在变得司空见惯.在医疗领域,医生也越来越重视人工智能所带来的疾病诊断效率和治疗价值的提升.要实现医疗人工智能,需要构建医学知识图谱以满足医疗领域对知识的应用需 ...

  4. 英文抗生素药物医学知识图谱IASO1.0版发布 线上试用正式启动

    近日,由北京大学互联网信息工程研发中心(CIRE)开发的中文医学知识图谱英文抗生素药物医学知识图谱IASO1.0发布,面向公众正式开放试用.IASO是利用自然语言处理与文本挖掘技术,基于大规模医学文本 ...

  5. 首个中文全词类知识库-百科知识树 开源啦!搭配开源标注工具,一招搞定知识关联!...

    近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本.2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过「超大规模无监督语料上的预训练语言模型+相对 ...

  6. 助力健康中国,国内首个中文医疗信息处理挑战榜正式发布

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 近日,由中国中文信息学会医疗健康与生物信息处理专业委员会发起的中文医疗健康信息处理挑战榜-CBLUE(Chinese Biomedical ...

  7. 图谱实战 | 医学知识图谱的价值与应用场景

    转载公众号 | OMAHA联盟 随着技术的进步和市场的逐渐成熟,人工智能在医疗等领域的应用日益广泛和深入.而知识图谱技术作为一种从海量文本和图像中抽取结构化知识的手段,正在成为推动人工智能发展的核心驱 ...

  8. 图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

    转载公众号 | DataFunSummit 分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任 编辑整理:李杰 京东 出品平台:DataFunTalk 导读:数研院这些年在知识图谱建设 ...

  9. 领域应用 | ​英文抗生素药物医学知识图谱 IASO1.0 版发布 线上试用正式启动

    本文转载自公众号:PKU自然语言处理前沿. 近日,由北京大学互联网信息工程研发中心(CIRE)开发的英语医学知识图谱英文抗生素药物医学知识图谱IASO1.0发布,面向公众正式开放试用.IASO是利用自 ...

最新文章

  1. HDU 1847 Good Luck in CET-4 Everybody!(组合博弈)
  2. 如何使用Lombok来优雅的编码
  3. c# winform快捷键设置
  4. Web前端笔记-let n = 6 - data.length >>> 0 含义
  5. mysql8.0 密码认证插件_只需使用VS Code的REST客户端插件即可进行API调用
  6. mysql5.6.39编译安装_源码编译安装MySQL-5.6/mysql-5.6.39------踩了无数坑,重装了十几次服务器才会的,不容易啊!...
  7. json在java中的使用_有效地使用JSON流(在Java中)
  8. samba 和 nfs 实验
  9. Linux下mysql5.7.18登录报错“Access denied for user 'root'@'localhost' (using password: YES”)
  10. 转 可以word ,excel ,pdf ,ppt 导入和导出的思维导图
  11. [FSOD][笔记]Context-Transformer: Tackling Object Confusion for Few-Shot Detection(AAAI 2020)
  12. 6个超实用网站,让你工作时长减半。
  13. html游戏手柄,纯CSS3实现的游戏控制手柄
  14. 微信小程序中view水平垂直居中
  15. getAttribute 和setAttribute 的使用方法
  16. 【小沐学python】(二)Python常见问题汇总
  17. can总线的特点和优缺点以及和485比较
  18. 最接近人类编程语言的REBOL
  19. 金蝶K3系统sql溢出错误处置记录
  20. 为什么Git 比 SVN 好

热门文章

  1. FIFO工作原理以及读写完成标识和判断方法
  2. u盘分区了怎么合并?u盘分区了怎么恢复教程
  3. 捷克avast杀毒软件专业版
  4. 【C语言】字符串和内存函数介绍及模拟实现
  5. 购物车,朋友圈等测试点
  6. iOS提交马甲包神器KLGenerateSpamCode
  7. 第33届MPD 暨中兴高效研发工作坊将在南京举办
  8. 题解 P5022 【旅行】
  9. Microsoft Office 2013下载
  10. 不小心删除了文件能恢复吗 误删除文件怎么找回