一、赛题任务

本赛题的数据分为五个领域的金融科技新闻,选取其中三个领域的正负样本作为训练集,另外两个领域一个作为A榜评测数据,一个作为B榜评测数据。其中数据中分类标签1只有454条(总共样本为45440条),摘要占分30%,分类占分70%。

四个领域的说明如下(没有B榜的领域标签):

1、JG

监管趋势与宏观政策

最新的政府、央行、监管趋势,政府宏观政策,监管领导的观点(银监、人行等)。

(1)重点关注央行、银保监会出台的涉及金融科技方面的政策,也可关注科技部、工信部出台的涉及科技、与金融科技技术方面相关的政策。

(2)主要关注银保监会、央行领导的发言&观点,如在重要论坛、重要会议上,涉及金融科技方面的讲话。

2、JT(A榜测试集)

金融巨头资讯

国内大行的科技,数字化转型的一些业务和科技战略及观点。(国内六大行及股份行)

(1)国内六大行(工、农、中、建、交、邮储银行)、国内12家股份制银行(招商银行、平安银行、中信银行、浦发银行)在金融科技方面的新举措、新发展、或研发的新产品&新技术,取得的成绩&荣誉、认证等;

(2)国内六大行领导、12家股份制银行(董事长、行长)在重要会议上涉及金融科技方面的发言&观点;

3、KJ

科技公司新闻

(1)国内外顶级科技公司(蚂蚁集团、京东数科、华为、科大迅飞等)研发的新产品&新技术,取得的荣誉奖项、获得的认证(如国家金融科技认证中心、中国信通院、银行卡检测中心等机构发起的金融行业方面的认证)等资讯。

(2)科技方面,可重点关注人工智能、大数据、云计算、区块链这4个方面关于新技术&新产品方面的资讯。

4、TRZ

投融资概况

主要关注国内外和科技相关的金融科技公司(蚂蚁集团、京东数科、旷视科技等)在上市、投资、融资等方面的资讯。

二、各团队方案

(一)、分类任务

1、赛题任务总结

由于赛题的出发点就是跨领域学习,和小样本学习,以及数据增强。所以大多数队伍都是主要针对分类结果进行提分。并且在训练集的摘要中,很多队伍都已经发现摘要是数据的前面一部分,几乎完全重合。所以很多队伍都是直接将A榜测试集的数据前面部分进行截取,作为摘要,还得到了90多的分数(摘要得分)。最后评委点评时也说了,他们官方抽取摘要的方式,A榜是直接取文本的前面字段,B榜是采取的生成的方式,这就导致如果直接采取截取数据前面部分作为摘要,会导致A榜结果较高,B榜会低一些。

其次,在分类上,还是只有少部分队伍考虑到了跨领域的问题,很多队伍也都没有考虑跨领域的问题,忽略了赛题的核心出发点,这一部分在评委点评时也说了,赛题本身的出发点就是跨领域和小样本学习以及数据增强,各赛队应该多从这几个方面入手,查找最近的相关论文,实现其中的方法,这些几乎没有团队做到。对于数据增强,应该做更多的工作,对于小样本数据应该有更多的思考,应该加强对数据的分析,而不是只是分析数据正负样本比例,在以后的工作过程中面对的数据都是多个领域的,应该从多个领域思考数据。

2、方案总结

这一部分主要是数据和模型两方面入手,主要解决正样本少以及跨领域的问题,很多队伍主要还是针对正样本少进行提分。

(1)解决正样本少

这一部分首先想到的应该是数据增强,很多队伍也都使用了这个方法,但是效果其实并没有特别好,这一部分评委也说,这些数据增强后的方法会引入大量噪音,是否评测过数据增强后,模型效果有没有提升,是否应该增强后再进行降噪。方法主要有:

1)标签为0,欠采样,取20%数据,标签为1 ,上采样,用回译增强,对正样本的数据翻译到一个其他语言(翻译成很多种语言,容易产生噪音),再翻译回来。

2)EDA增强。

3)同义词替换,在句子中随机抽取n个词,然后从synonyms中文同义词词典中随机抽取同义词,并进行替换。

4)数据生成,结合数据分析结果,对句子较长,且标签为1的进行截取,生成多个正样本,模型效果得到提升。

(2)解决跨领域

这里很少队伍考虑到了,基本上考虑这个因素的队伍的得分就比较高。其中效果最好,方法最新颖(最复杂)的当然是第一名的方案。、

首先来看一下第一名的方案,名字为《基于prompt的实体弱化分类模型》与《HAN分类模型》进行平均融合。

首先,在数据上,利用FinBert+平均池化生成句向量计算训练集和测试集的样本相似度矩阵,从训练集中筛选出和测试集相似的4000条样本,缓解跨领域的问题。

在《基于prompt的实体弱化分类模型》的方法中,主要使用了最近比较火的prompt方法,因为要判断一条数据是否是“金融科技新闻”,其在每一条数据后面加入:这[MASK]和金融科技相关。然后预测[MASK]为“是”、“否”。来判断是否属于金融科技新闻。并在这个基础上,模型又加入了两个预训练任务,分别为预测领域实体随机mask任务。预测领域实体为了弱化跨领域的影响,所有领域实体都预测为[ORG]。加入随机mask任务是为了增强非领域实体表示。在这过程中使用的是FinBert预训练模型。并且在最后是加权融合最后四层,对于一个词,求在最后四层上的归一化概率值作为四个层的权值,每个权值乘以当前层的原始概率值为融合后的这个词的概率值。

在《HAN分类模型》的方法中,使用word2vec词向量进行预训练、单句字词最大长度100,可以覆盖80%的句子;单样本最多50个句子,可以覆盖80%的样本。上一个基于prompt的方法就可以达到一个很高的结果了,这个单模型比基于prompt的方法的效果要差一些,但是融合后,效果比两个模型都要好,并且可以提高模型的泛化能力。

其他队伍的一些方法,除了第一名的方法效果非常好之外,在其他队伍的分享中发现,使用测试集和训练集中的金融科技新闻数据进行相似度计算,再进行分类效果也比较好:

1)欠采样,选择样本进行针对性训练(包含“金融科技”、“科技金融”)字样。将训练出的模型进行测试集的预测,并将预测结果训练集的全部正例和全部负例分别进行比较,公式为Score=正例相似度+(100-负例相似度)

2)JG领域作为验证。为了验证模型的迁移效果,单独划分出一个领域作为验证,具体为,选择与测试集规模相近的JG领域作为验证集,其他两个领域作为训练集,达到较好的效果。这样做的原因是:通过分层抽样的方式进行数据抽取,进行五折交叉验证训练,但是发现线上线下分数不一致,经过分析,在训练和验证的过程中使用到了同一领域样本,存在领域信息泄露,导致线上线下gap较大。

3)采用tf-idf从数据集中挑选适用于分类的关键词,采用余弦相似度算法将测试集数据与训练集数据判定类别为金融科技的样本数据进行比较,综合两种算法得到最终分类标签。

(二)摘要

这一部分90%的队伍都是直接截取测试集的前面字段作为摘要,因为几乎所有队伍都发现训练集摘要基本和文本前面部分重合,并且以这样的方式提交A榜测试集在摘要上可以达到一个很高的得分,并且摘要得分在总得分中占比不高,所以这一部分基本没有新奇的方法。

(三)其他策略

在整个答辩的过程中,因为数据的样本严重不均衡的问题,参赛队伍基本上都是针对这个问题和跨领域的问题而提出一些解决方案,使用到的策略基本是常见的策略,并没有什么比较新奇的策略。主要有:阈值划分、对抗训练等。

(四)一些队伍的展望

  1. 重新预训练:可以使用更多的领域数据,从头开始预训练。
  2. 模型尝试:通过graph transfer 模型构建出样本关联图,通过图关联学习的方法。

天马杯-NLP赛道(科技新闻分类与摘要)赛后总结相关推荐

  1. 天马杯全球高校科技创新大赛

    大赛介绍 "天马杯全球高校科技创新大赛"(以下简称大赛),是由马上消费金融股份有限公司主办的高校级别的科技主题杯赛.在新时代国家信息化发展"数字中国"大战略背景 ...

  2. 黑马NLP实战 --- 新闻分类模型训练

    关于<黑马程序员>课程中NLP中 训练新闻分类模型 最近在学习NLP的相关知识,找了资料比较全的黑马程序员中讲解NLP的课程,可是其中有一部分实战 新闻主题分类实战项目中,我发现黑马程序员 ...

  3. 【NLP】⚠️学不会打我! 半小时学会基本操作 8⚠️ 新闻分类

    [NLP]⚠️学不会打我! 半小时学会基本操作 8⚠️ 新闻分类 概述 TF-IDF 关键词提取 TF IDF TF-IDF TfidfVectorizer 数据介绍 代码实现 概述 从今天开始我们将 ...

  4. 【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类

    文章目录 一.新闻分类任务 1.1 中文数据集 1.2 数据特点 1.3 跑起代码 二. 预训练语言模型ERNIE 2.1 ERNIE模型结构 2.2 bert模型结构 三.项目代码 1. bert模 ...

  5. 基于Ernie-3.0 CAIL2019法研杯要素识别多标签分类任务

    相关项目: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Paddl ...

  6. 机器学习入门 --- 贝叶斯 - 中文新闻分类任务

    文本分析 停用词 语料中大量出现,但没有大的用处 Tf-idf 关键词提取 TF−IDF=词频(TF)∗逆文档频率(IDF)TF-IDF = 词频(TF)*逆文档频率(IDF)TF−IDF=词频(TF ...

  7. 使用贝叶斯进行新闻分类

    贝叶斯新闻分类任务 新闻数据集处理 爬取的新闻数据,需要我们对文本数据进行很多预处理才能使用 文本分词 通常我们处理的都是词而不是一篇文章 去停用词 停用词会对结果产生不好的影响,所以一定得把他们去剔 ...

  8. 16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例)

    唐宇迪<python数据分析与机器学习实战>学习笔记 16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例) ** 一.流程分析 ** 数据如下图:content为主体内容, ...

  9. 机器学习项目实战----新闻分类任务(二)

    五.TF-IDF以及LDA主题模型 TF-IDF关键词提取 import jieba.analyse index = 2400 print(df_news['content'][index]) con ...

最新文章

  1. tcc读写文本txt文件
  2. Codeforces Round #701 (Div. 2) C. Floor and Mod 数学分块
  3. Educational Codeforces Round 93 (Rated for Div. 2)
  4. MySQL中的binlog日志
  5. 煤粉粒度对shell气化的影响_提高水煤浆气化有效气成分的措施
  6. android开发卡死代码,Android Studio编译卡死(示例代码)
  7. python如何定义类_Python class定义类,Python类的定义(入门必读)
  8. css3中的transform中的3d变换:translatez()与transform-origin-z()的区别
  9. 浏览器地址栏中加入ico图标的二种方法
  10. 微博注册页面html,微博静态模板html
  11. dm-thin-provision架构及实现简析
  12. flex布局 justify-content 新属性值 space-evenly
  13. 何为功能平价?特斯拉「抛弃」多传感融合,背后有哪些门道
  14. 气传导蓝牙耳机优缺点有哪些?气传导耳机科普及推荐
  15. 【c语言】矩阵的创建
  16. 在Ext JS本地化
  17. AVB校验微观版本:android avb(Android Verified Boot)验证
  18. 2019年蓝桥杯C/C++ B组试题 部分题目答案
  19. 基于PHP的校园留言板系统(带后台管理)
  20. 系统分析师上午题-第 8 章 企业信息化战略与实施

热门文章

  1. DDD专题之--入门
  2. 关于子函数的调用和终止
  3. MTK Combo Chip常用调试命令
  4. unzip解压部分代码
  5. html判断是否在微信里打开,JavaScript判断浏览器内核,微信打开自动提示在浏览器打开...
  6. 十个全网最具创意的聊天机器人:漫威和联合国儿童基金会都在尝试使用聊天机器人...
  7. 耳机基本知识及评判指标
  8. 颈椎病的成因及治疗预防方法
  9. Gabor滤波器 pytorch实现
  10. selenium自动化测试环境搭建及启动safair浏览器(Mac)