©PaperWeekly 原创 · 作者 | 肖濛

单位 | 中国科学院计算机网络信息中心

研究方向 | 文本分类

摘要

本文介绍来自中国科学院大学、中佛罗里达大学、澳门大学与香港科技大学 (广州)的作者们提出的一种交叉学科科技文本层次分类算法,应用于项目申请书的学科代码生成。

论文标题:

Hierarchical Interdisciplinary Topic Detection Model for Research Proposal Classification

论文地址:

https://www.doi.org/10.1109/TKDE.2023.3248608

近期,随着一年一度的国家基金委项目申请期拉开序幕,如何为科学家撰写的基金项目申请书选择合适的学科代码成为了不少年轻科学家头疼的话题(前序报道见中国科学报):

https://www.kepuchina.cn/more/202110/t20211006_3069095.shtml

科研人员撰写项目申请书,资助机构对研究项目申请书进行同行评审,并决定拨款奖项。这一直是科研人员获得经费的主要机制。以国家基金委的项目申请为例,在项目的申请和评审过程中,往往需要研究人员手动提交项目申请书的学科代码,这代表着该项目申请书的研究主题,然后,根据这些学科代码分配相关的评审人。

然而,由于科研人员之间存在的认知差异,造成了学科代码的填写可能存在不准确,不一致,甚至存在有的科研人员为了更好地通过评审而故意选择容易获得资助的学科代码的情况。尤其随着近年来各学科的发展,越来越多的科研人员开始开展跨学科的研究,造成了其项目申请书往往需要两个学科代码。如何更精确,更有效的填写跨学科项目申请书的学科代码,以提升项目评审的公平性是一个新的挑战。

在这项研究中,作者与中国国家自然科学基金会合作,利用 AI 技术提出一个自动跨学科主题路径检测模型,可以根据项目申请书的标题,摘要,关键词等信息,自动生成其学科代码,且能够自动检测出交叉学科的申请书,为其生成交叉学科代码。

具体而言,本工作首先提出了一种层次的 Transformer 来提取项目申请书的文本语义信息。然后,本工作设计了一个跨学科知识图,并利用图卷积神经网络学习每个学科的表示,以提取跨学科知识。在提取语义和跨学科知识后,在预测阶段,本工作设计了一个逐层级的预测组件,以融合两种知识表示并检测每个项目申请书的跨学科主题路径。

实验部分,本工作在三个真实数据集上进行了广泛的实验,并邀请了基金委的专家进行评估,以展示该论文所提出的模型的有效性。

简介

项目申请书这一类科技文本的主题推理的主要挑战来自于项目的撰写者所理解的学科体系可能与项目管理者所编撰的学科体系之间有一些误差,而这些误差会导致部分学科主题代码漏选或者误选,从而导致不公平的评审问题。例如一份来自生命科学与信息科学的交叉学科工作,如果直接送审到生命科学的专家而不考虑信息科学主题,那这份工作的创新性和对研究方法的评估可能会有偏差。如何建模交叉学科知识来辅助模型预测?

此外,从模型的角度来看,项目申请书与一般的长文本建模场景不一致,其一般包含若干类别、并带有不同语义的长短文本,例如标题、摘要、关键词等。而这些文本在由专家进行的手工科技文本分类场景中可能承担不同的作用,例如专家可能可以简单的通过阅读标题来确定申请书的主要学科从属,但如果需要进行更细粒度的分类,也许需要研读申请书的摘要或是正文。

最后,层次化的学科体系本质上来说是一类由专家编撰和设计的具有层次信息的标签系统,具有自反性、非对称性和传递性。如何利用这一类标签的层次特点减少模型在预测时的困难?

上图是交叉学科科技文本推理的例子,一份包含多类别文本的交叉学科科技文本(左图 1)将会在包含大量学科主题的层次标签体系(右图 1)下推理得出一到两条主题路径(中间图)。例如在这个例子里的左侧一条路径中,F 表示信息科学,F06 表示人工智能,F0601 表示人工智能基础。

针对上文提到的三个任务的特性,本文设计了一种基于 Transformer 的迭代式主题推理层次多标签分类模型:语义抽取部分(Semantic Information Extractor)设计了一个层次化的 Transformer 架构,来获取并融合不同类别文本的语义信息,交叉学科主题抽取(Interdisciplinary Knowledge Extractor)通过一张预先构建的交叉学科知识图获取层次学科体系上每个标签的表达。

信息融合部分类似于 Transformer Decoder,将会自适应地融合由语义抽取获得的各部分文本的语义表征与交叉学科主题抽取初始化的各历史预测结果的交叉表征,并结合注意力机制随着推理粒度的加深改变对每一部分的关注度。

最后,层次推理将会迭代地更新历史预测信息并推理新的主题路径。该迭代架构同时可以保证模型能够在专家提供粗粒度标签的场景下模型进行接续预测,补全剩余的细粒度标签。

实验结果

实验部分主要在三个交叉度依此提高的 RP-all、RP-bi、RP-differ 数据集上进行,使用了两个多标签分类的评价指标 Micro-F1 与 Macro-F1。

实验结果表明模型在推理过程中不但能够在整体上取得优秀的表现,同时,在分层预测的评估中,模型也能取得最好的表现。各部分的消融实验也证明了模型设计的不同组件对于该场景下主题推理的有效性。

除了使用多标签分类指标评价外,本文还研究探讨了推理过程具体的有效性,在与基金委专家沟通后,本工作将不同层级的错误用带权值的编辑距离来定量评估(Interdisciplianry Distance,交叉距离),每一个层级出现错误的惩罚分别为 {1, 10, 30, 50}。例如真实标签在第四层的主题标签为 A010101 而模型在该层推理出 B010101 时,该案例与真实值的距离为 50。

同时,实验还统计了不同层级出现不同错例的情况,如 Lack 表示模型在之前层级停止了预测,TooMuch 表示模型未在正确层级停止预测,Wrong 表示模型预测出了一个不符合层次依赖的标签,而 Other 表示其他所有错误情况。

可以看到模型在各个层级的交叉距离都并不大,与第二、第三好的基线模型对比也有着较大的提升。同时根据错例分析,模型主要产生误差的场景为相对谨慎地提早停止预测(Lack 错误)。这些评估对于之后在实际场景部署有着很好的参考价值。

本工作还对模型各个模块注意力机制、可解释性、模型利用专家提供的部分标签进行接续预测等角度进行了丰富的实验论证和评估,详情可见正文。

结语

本文描述了分层跨学科主题推理模型 HIRPCN,这是一种基于 Transformer 的面相真实科技文本数据的自定向下层次多标签分类方法。

实验部分验证了 HIRPCN 在三个真实世界数据集上能够取得最佳性能,除此之外,HIRPCN 还可以寻找到每个级别的最合适的最细粒度推理。

实验部分还讨论了模型的注意力机制,并且验证了模型在领域专家评估下修复不完整的跨学科标签。HIRPCN 可以从任意给定的标签开始预测,在真实系统中承担起人工智能辅助系统的功能,这在现实场景中对改进审稿人、评审专家分配这一任务至关重要。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

TKDE 2023 | 交叉学科项目申请书学科代码生成相关推荐

  1. 几何画板200个经典课件_项目制学科联动 | 金芬娥首席工作室:灵动“画板”,研修创新,协同进步...

    西湖区成立115个"项目制首席教师工作室",建立中小学.幼儿园学科联动机制,以专业发展为目标,以教育问题为导向,整合发挥学科教研员.学科带头人和名师工作室领衔人的智力资源,助推教师 ...

  2. 申报指南|教你如何优雅地报名、提交项目申请书

    「2021腾讯犀牛鸟开源人才培养计划」开始已经20多天了,组委会已经收到不少同学的报名和提案. 还没有报名和准备proposal的同学请注意啦:距离6月21日报名和提交项目申请书截止还有13天! 关于 ...

  3. FluentMybatis 项目构建、代码生成(一) | FluentMybatis实践

    目录 简述 特性 项目搭建 maven依赖引入-fluent-mybatis 表构建 代码生成工具类 解决类找不到问题 总结 简述 偶然看到一篇关于阿里新orm框架的文章,好奇的点了进去.开发后端多年 ...

  4. 小学计算机学科工作计划,2023年小学信息技术学科工作计划

    <2023年小学信息技术学科工作计划>由会员分享,可在线阅读,更多相关<2023年小学信息技术学科工作计划(5页珍藏版)>请在人人文库网上搜索. 1.工作计划2023年小学信息 ...

  5. matlab实现srt,SRT计划项目申请书提交版.doc

    SRT计划项目申请书 项目名称:申请: XXX 院 系: 工学院农机系 专 业: 农业机械化及自动化专业 指导教师: XX 职称: XX 2012年 04 月 08日南京农业大学教务处制 填 报 说 ...

  6. 2023 年度 A 类学科竞赛项目清单

    A 类学科竞赛项目清单 序号 比赛名称 主办方 级别 举办周期 1 中国国际"互联网+"大学生创新创业大赛 教育部 国家级 每年 2 "挑战杯"全国大学生课外学 ...

  7. 2023 QS世界大学学科排名:中国大陆高校有32个学科进入世界前20,材料科学、化学、生物科学等表现优异 | 美通社头条...

    美通社消息,国际高等教育研究机构 QS Quacquarelli Symonds发布了第13版QS世界大学学科排名,本次学科排名中中国大陆高校学科项目入榜数量创新高,达到851个(去年为771个).英 ...

  8. 源码时代php中级项目,PHP学科项目评比圆满结束

    春风送爽,万物复苏,在四月的第一天,源代码教育第09期PHP培训就业班就迎来了中级项目评比大赛.有付出就会有收获,经过一段时间辛苦的学习,从编程基础薄弱的学员到现在能够在短短的6天时间组队完成一个项目 ...

  9. 项目申请书一点总结经验

    1.题目: 不超过26个字,很关键,决定成功率 2. 摘要:分5句:第一句 讲清楚研究项目的问题及危害,让评审人知道你的研究与什么相关: 第二句:过渡到这个领域中存在的科学问题,告诉评审人你的项目要解 ...

最新文章

  1. 空间里相片批量导入u盘_国民好物:aigo手机U盘 开启存储新时代
  2. mysql存储过程执行两边_麻烦问下,为什么我的mysql存储过程一次调用,会被执行了两次?...
  3. 诗歌rails之 method_missing
  4. learnpython有中文版吗_简介 | Learn Python the Hard Way 中文版
  5. python查看数据类型nonetype_python 查询数据库数据 NoneType报错
  6. fastjson解析多层数据_JSON数据如何进行解析呢,方式有哪些?
  7. CVPR 2019 神奇的超分辨率算法DPSR:应对图像模糊降质
  8. ModuleNotFoundError: No module named ‘keras.api‘
  9. 报错:‘nodemon‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。
  10. Atitit 数据记录存储方式 索引组织表 堆组织表 储方式 InnoDB 引擎把数据放在主键索引上,其他索引上保存的是主键 id。这种方式,我们称之为索引组织表(Index Organizi
  11. Oracle 根据身份证计算年龄 性别 生日
  12. oracle nested loops outer,11g对Nested Loops的改进
  13. canvas绘制星空底图
  14. Arch LInux 使用USB转串口(CH340)
  15. 导出xls的奇技淫巧
  16. 大三下的计划以及找工作的准备
  17. 非等级式随机森林----随机蕨分类器
  18. javascript Array系列函数之14:every函数
  19. 避坑笔记之Ubuntu 20.04 安装 msfconsole
  20. 树莓派系统安装步骤——免费工具包资源

热门文章

  1. 開口說英語─生活英語 1000句
  2. 推荐开发人员看的较有影响力的书籍
  3. matlab求解微分方程的解析解
  4. java计算机毕业设计视频点播系统源代码+数据库+系统+lw文档
  5. 产业分析:国有资本创新发展
  6. 安装 libboost-all-dev 包报错未满足依赖关系
  7. 半导体行业的Fabless和IDM两种模式
  8. 一个语音转文字的工具 java 编写
  9. B站最受欢迎的Python教程,免费教学视频可以下载了
  10. boost 库 applyvisitor使用