reStructured Pre-training

论文中有一句话说得很好,这是prompted pretraining的过程,模型在pretrained的阶段,就像是在学习下游任务。
任务以生成任务的范式建模为统一的形式。

非常值得一阅。非常。

前言

整个IE经过的发展时期:
是不是大约每10年经过一轮变更?
不对,变更的时间在不断的缩减。
传统机器学习的时代在2011年左右接近尾声,之后,深度学习时代,18年,bert出现,开始转入模型结构时代,21年,提示学习开始崭露头角,22年,回归数据,数据结构化再次被关注。
paperweekly的讲解:https://blog.csdn.net/qq_27590277/article/details/125494870

论文中的原话是:数据的作用将被再次强调,模型的预训练和下游任务的微调被看作是一个数据存储和访问的过程。

技术的迭代总是沿着这样的方向发展,即系统开发者可以通过做更少的事情来设计一个更好和更普遍的系统。
在克服了一些工程上的挑战后,在由各种有价值的信息组成的重组数据上预训练模型,而不是原始数据。


1. 信号的定义 信号是有用的信息,可以为特定任务的知识学习服务,并指导模型进行学习优化。作为结构化学习的第一步,我们首先需要弄清楚世界上自然存在的、收集到的、可用的信号是什么。
2. 数据矿识别 在现实世界中,我们可以获得各种数据源,如新闻网站、维基百科、知识库,甚至是在线视频。数据矿是指富含不同类型信号的数据集合。一旦信号被定义,搜索合适的数据矿就有望实现(§3.2)。
3. 信号提取 如何从数据矿中有效地提取信号对重组学习也很重要。 我们将在第3.3节中详细介绍我们如何从信号源中挖掘信号。
4. 信号重组 这个过程关心的是如何用统一的格式表示所有类型的信号,缩小数据存储和数据检索之间的差距。我们将在第3.5节中详细介绍。
5. 预训练和调整 这个过程关心的是什么是理想的预训练结构,以便所有重组的信号可以有效地用于模型预训练。我们将在第3.6节中详细介绍。

标红的是我认为比较重要的项目。

信息提取过程涉及到了一些数据挖掘、数据重构、数据清洗的过程。

信息重组关键在于“怎么把信号尽可能的统一?”

文中对于信号的分类:按照模态、功能、寄生环境分为如下几大类:

信号和下游任务的关系:

总结了42个任务。
总结类、分类、时序判断…

数据格式采用的元组的形式。(text,summary)/(text,title) / (answer,title) / (review,sentiment) / (text,subject,property,object)

提示学习模板

  1. multiple-choice format
  2. generation format

I like this movie. Is this text ‘‘positive" or
‘‘negative"? while a generation format prompt could be the following: I like this movie. What’s
the sentiment of the previous text?. We use two special markers: “TEXT:” and “QUERY:” to
separate the general context and the intended task to be completed

评估和评测部分未介绍。

刘鹏飞_2022_reStructured Pre-training相关推荐

  1. CMU 刘鹏飞:NLP的第四范式

    近两年,基于预训练+精调的研究范式,迅速席卷了整个 NLP 领域.这种研究范式被大家普遍认同为是 NLP 研究的革命性范式,在此之前则有"专家系统"."统计模型" ...

  2. 刘鹏飞 袁玮哲:自动生成论文评审意见!AI可以取代审稿人吗?

    2021一开年,众多顶会投稿截止日期也在日渐邻近. 各大AI顶会论文呈现井喷之势的同时,审稿人们也在花费越来越多的精力在审稿过程中.作者们越来越普遍地开始抱怨会议中的论文评审随机性增加.不公正现象出现 ...

  3. 直播 | CMU博士后刘鹏飞:文本生成任务十大发展趋势(2020-2021)

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  4. 复旦大学计算机学院博士生王斌,复旦大学计算机科学技术学院博士生刘鹏飞荣获...

    计算机科学技术学院发布时间:2017-01-04 小字体 中字体 大字体 2016年12月22日,历时七个月选拔的2016年度百度奖学金获奖者揭晓,复旦大学计算机科学技术学院2014级博士生刘鹏飞以其 ...

  5. 二流学校的计算机博士,二流大学-复旦大学计算机科学技术学院博士生刘鹏飞荣获2016年度百度奖学金...

    2016年12月22日,历时七个月选拔的2016年度百度奖学金获奖者揭晓,复旦大学计算机科学技术学院2014级博士生刘鹏飞以其在"自然语言处理与深度学习"上取得的突出成绩,从国内外 ...

  6. NLP第四范式:Prompt概述【Pre-train,Prompt(提示),Predict】【刘鹏飞】

    一.概述 1.prompt的含义 prompt顾名思义就是"提示"的意思,应该有人玩过你画我猜这个游戏吧,对方根据一个词语画一幅画,我们来猜他画的是什么,因为有太多灵魂画手了,画风 ...

  7. 知识图谱如何助力文本摘要生成

    来源:丁香园大数据 本文约3800字,建议阅读8分钟 本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言 文本生成类任务应用场景广泛, ...

  8. 线下活动 × 深圳 | 大咖云集!第11届国际博士生论坛报名开启

    国际博士生论坛(International Doctoral Forum)是由清华大学和香港中文大学于 2006 年联合发起的一项学术交流活动,至今已有 12 年的历史.2014 年起西北工业大学参与 ...

  9. 还在 Fine-tune 大规模预训练模型? 该了解下最新玩法 Prompt-tuning啦

    写干货不易,点个赞再走吧! 由于预训练模型经过了预训练的学习,因此其本身已经拥有了一定的特征抽取(挖掘)能力,是个"三好学生":而大规模预训练模型在此基础上由于参数量众多,因此结合 ...

最新文章

  1. oracle 统计一年中每个月数据总和_excel表格有每月数据 怎样统计全年的-用excel公式怎样计算每年每个月的数据总和?...
  2. autorunner测试java代码,AutoRunner自动化测试工具介绍
  3. python连接中控考勤机分析数据
  4. svn 自动同步到web站点目录post-commit.bat
  5. 马约拉纳费米子:推动量子计算的“天使粒子”
  6. [elixir! #0023] 引擎盖下, `IO.puts` 如何运作
  7. 【MVC+MySQL+EntityFramework】查询性能优化笔记
  8. Go中的Init函数
  9. Xtreme9.0 - Block Art 线段树
  10. Activity的启动模式standard,singleTop,singleTask,singleInstance(转)
  11. codeproject 调试技巧 学习笔记
  12. 关于DNF的多媒体包NPK文件的那些事儿(7) - IMGV5
  13. 遍历目录下的所有文件(文件)
  14. quartus dcfifo操作
  15. 基于IAAS和SAAS的运维自动化-张克琛
  16. 天津大学计算机学院博士招生目录,天津大学计算机科学与技术学院考博招生人数和专业.pdf...
  17. java 实验室预约系统_java实验室预约管理系统(源码+数据库脚本)
  18. FristiLeaks_1.3#攻略
  19. 查看exe和dll等二进制文件时间戳(生成时间)的工具与方法介绍
  20. 再度升级:深入分析针对金融科技公司的Evilnum恶意软件及组件

热门文章

  1. Must call super constructor in derived class before accessing 'this' or returning from derived const
  2. CSDN是怎么样的一个网站
  3. File xxx specified for property 'resourceFile' does not exist.解决方法
  4. BlockingQueue的用法
  5. graphql_GraphQL简介
  6. 对于offsetWidth,offsetHeight,offsetLeft,offsetTop的理解
  7. 百万条数据插入mysql_mysql快速插入百万条数据
  8. Java访问QingCloud青云对象存储
  9. java反射机制的实现原理 (一)
  10. 微信小程序的项目缓存路径