在生物医学这样的专业领域训练NLP模型,除了特定数据集,「域外」文本也被认为是有用的。但最近,微软的研究人员「大呼」:我不这么觉得!

什么是预训练?

这是一个拷问人工智能「门外汉」的灵魂问题。

生而为人,我们不需要一切从零开始学习。但是,我们会「以旧学新」,用过去所学的旧知识,来理解新知识和处理各种新任务。

在人工智能中,预训练就是模仿人类这个过程。

预训练(pre-training)这个词经常在论文中见到,指的是用一个任务去训练一个模型,帮助它形成可以在其他任务中使用的参数。

用已学习任务的模型参数初始化新任务的模型参数。通过这种方式,旧的知识可以帮助新模型从旧的经验中成功地执行新任务,而不是从零开始。

以前的研究已经表明,在像生物医学这样的专业领域,当训练一个NLP模型时,特定领域的数据集可以提高准确性。不过,还有一个普遍的认识是,「域外」文本也有用。

但是!微软研究人员对这一假设提出了质疑。

近日,微软研究人员提出一种人工智能技术,针对生物医学NLP的领域特定语言模型预训练。并自信地说,通过从公开的数据集中编译一个「全面的」生物医学NLP基准,在包括命名实体识别、基于证据的医学信息提取、文档分类等任务上取得了最先进的成果。

他们认为,「混合领域」预训练?不就是迁移学习的另一种形式吗?源领域是一般文本(如新闻),目标领域是专门文本(如生物医学论文)。

在此基础上,针对特定领域的生物医学NLP模型的预训练总是优于通用语言模型的预训练,说明「混合领域」预训练并不完美。

神经语言模型预训练的两种范式。「混合领域」预训练(上);只使用域内文本预训练(下)

如此自信,研究人员是有证据的。

他们通过对生物医学NLP应用的影响,比较了训练前的建模和特定任务的微调。

第一步,他们创建了一个名为生物医学语言理解和推理基准(BLURB)的基准,该基准侧重于PubMed(一个生物医学相关的数据库)提供的出版物,涵盖了诸如关系提取、句子相似度和问题回答等任务,以及诸如是/否问题回答等分类任务。为了计算总结性分数,BLURB中的语料库按任务类型分组,并分别打分,之后计算所有的平均值。

为了评估,他们又在最新的PubMed文档中生成了一个词汇表并训练了一个模型:1400万篇摘要和32亿个单词,总计21GB。在一台拥有16个V100显卡的Nvidia DGX-2机器上,培训了大约5天时间。这个模型具有62,500步长和批量大小,可与以前生物医学预训练实验中使用的计算量相媲美。

又一个自信,研究人员说他们的模型——PubMedBERT,是建立在谷歌的BERT之上。

那个牛掰掰的BERT?Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。

但有趣的是,将PubMed的全文添加到预训练文本(168亿字)中会让性能略有下降,直到预训练时间延长。但研究人员将这部分归因于数据中的噪声。

“在本文中,我们挑战了神经语言预训练模型中普遍存在的假设(就是前面说的「混合领域」预训练),并证明了从「无」开始对特定领域进行预训练可以显著优于「混合领域」预训练。「为生物医学NLP的应用带来了新的、最先进的结果,」研究人员写道,「我们未来会进一步探索特定领域的预培训策略,将BLURB基准扩展到临床或其他高价值领域。」

为了鼓励生物医学NLP的研究,研究人员创建了一个以BLURB基准为特色的排行榜。他们还以开源的方式发布了预先训练过的特定任务模型。

研究已发布于预印论文网站arxiv上。

【编辑推荐】

  1. 大流行后出现的技术趋势
  2. 技术Leader远离代码,就是自废武功?
  3. 技术经理如何培养数据科学人才
  4. 山寨后再推高仿:接盘TikTok, Facebook是认真_IT技术周刊第639期
  5. 机器学习模型训练全流程!

无需「域外」文本,微软:NLP就应该针对性预训练相关推荐

  1. 看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?

    摘要:千亿参数量的中文大规模预训练语言模型时代到来. 本文分享自华为云社区< MindSpore开源框架加持,如何「炼出」首个千亿参数.TB级内存的中文预训练语言模型?>,原文作者:che ...

  2. ChatGPT版必应疑似「发疯」?微软紧急限制回答数目

    源 | 机器之心 大家好,这里是 NewBeeNLP. 未来的 AI 搜索,可不是竞价排名这么简单. 微软的 ChatGPT 版必应搜索上线之后,很多人都说它能代替谷歌搜索,成为下个最流行的科技产品. ...

  3. 微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

    作者丨张浩宇 学校丨国防科技大学计算机学院 研究方向丨自然语言生成.知识图谱问答 本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要 在 ...

  4. NLP 中的语言模型预训练微调

    1 引言 语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果 ...

  5. 10大NLP精选项目-涉及预训练Bert、知识图谱、智能问答、机器翻译、对话等

    自然语言处理技术近几年发展非常快,像BERT.GPT-3.图神经网络.知识图谱等技术被大量应用于项目实践中. 今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多,经常会被面试官揪着细节一步一步 ...

  6. PyTorch在NLP任务中使用预训练词向量

    在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...

  7. 「CSS」文本编排相关的CSS属性设置

    1.font-family:设置字体族. 格式为font-family:字体1,字体2,--,通用字体族|inherit. 通用字体族,是指一类相似的字体.W3C的CSS规则规定,要指定一个通用字体族 ...

  8. Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

    来源:雷克世界 编译:嗯~阿童木呀.多啦A亮 概要:得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现. 相信大家都知道,最近在 ...

  9. AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    来源丨机器之心 作者丨陈萍.小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注.几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了. 相 ...

最新文章

  1. IIS日志清理CMD版,VBS版,JS版,WSH版
  2. Linux设定程序为服务运行
  3. python读文件代码-Python遍历文件夹和读写文件的实现代码
  4. MaxCompute+ Geabase 大话健康知识图谱取经之路
  5. Scikit-Learn 机器学习笔记 -- 模型训练
  6. boost::sort模块实现测试并行稳定排序
  7. JQuery中的层级选择器
  8. halcon 将数据保存到excel_Python保存数据到Excel文件的多个sheet
  9. P4764-[CERC2014]Pork barrel【主席树,LCT,最小生成树】
  10. 中文信息处理(五)—— 文本分类与文本表示
  11. mysql 多个字段拼接 concat
  12. Lost Found
  13. stm32cubeMx---DCMI 配置与使用
  14. python父亲节礼物_父亲节有什么礼物可以推荐?
  15. java jlabel 字体加粗_这样在java里面的标签Jlabel设置字体加粗和下划线
  16. 百度APP移动研发平台及DevOps实践
  17. 1+X 云计算平台运维与开发(初级)
  18. 读《从一到无穷大》之后感
  19. CF514B Han Solo and Lazer Gun
  20. 【软件硬件】精简指令集和复杂指令集的区别

热门文章

  1. 黑色星期五c语言,求黑色星期五问题~
  2. 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...
  3. C++ 指针运算符( 和 *) 终于讲明白了
  4. 未能加载指定的模块“\Neo4j-Management.psd1
  5. seaborn官方API
  6. python maketrans方法
  7. 分区文件http://wenku.baidu.com/view/d839d1868762caaedd33d4b7.html
  8. 索引块与数据块的区别
  9. sola ris 简单命令
  10. 读 博 失 败 的 10 大 作 死 方 法