天池零基础入门NLP - 新闻文本分类Top1方案的bert4torch复现
天池有些长期比赛可以练习玩玩(还可以继续提交),于是试了下简单的新闻文本分类任务,Top1的解决方案思路是”预训练+fgm+交叉验证模型融合“,代码是基于bert4keras的,本人基于bert4torch复现了”fgm+交叉验证模型融合“部分(未复现预训练),默认参数下f1=0.9727,具体详细详细解决方案请参考原作者。
- 比赛链接:零基础入门NLP - 新闻文本分类
- Top1:天池新闻分类Rank1
- 复现项目链接:bert4torch复现项目
复现指标
- 三个指标分别为作者提交,本人自己跑,bert4torch复现跑
解决方案 | 说明 | 指标 |
---|---|---|
Top1 | —— | 正式赛f1=0.9735 |
Top1复跑 | bert以第1折交叉epoch=5初始化,1个epoch,seed=0, 1993, 2020三者融合 | 长期赛f1=0.9736 |
Top1_bert4torch复现 | bert+attn+fgm+cv | 长期赛f1=0.9727, dev_5cv=(0.97083, 0.97074, 0.96914, 0.96892, 0.96613) |
bert4torch框架介绍
bert4torch是一个基于pytorch的训练框架,前期以效仿和实现bert4keras的主要功能为主,特点是尽量简洁轻量,提供丰富示例,有兴趣的小伙伴可以试用,欢迎star。
bert4torch项目github.com/Tongjilibo/bert4torch
天池零基础入门NLP - 新闻文本分类Top1方案的bert4torch复现相关推荐
- 阿里云天池 零基础入门NLP - 新闻文本分类 2种做法,F1=0.87
problem 1.赛题理解 数据集: 在NLP_data_list_0715.csv中,有三个链接. 分别可以下载训练集,测试集A,测试样例. f1_score介绍: F1分数(F1-score)是 ...
- 【初学者入门】零基础入门NLP - 新闻文本分类
序言 从今天开始入门学习NLP,虽然有点晚,但是我觉得任何时候都值得开始,尤其是面对你去感兴趣的事情.今天的任务是 [零基础入门NLP - 新闻文本分类],这是天池大赛中的入门级算法比赛,入口链接请自 ...
- Task01——零基础入门NLP - 新闻文本分类之赛题理解
本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...
- 零基础入门NLP - 新闻文本分类
本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...
- 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享
零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g
- java统计文本中英文单词个数split_零基础入门NLP - 新闻文本分类Task2(天池入门赛)...
本章主要内容是主要是通过pandas模块来进行数据分析.(注:文章只是对天池入门赛课件的学习) 一.学习目标 1.学习使用pandas读取赛题规律 2.分布赛题数据的分布规律 二.数据读取 使用pan ...
- 【天池学习赛】零基础入门NLP - 新闻文本分类
一.赛题描述 赛题数据为新闻文本,并按照字符级别进行匿名处理.整合划分出14个候选分类类别:财经.彩票.房产.股票.家居.教育.科技.社会.时尚.时政.体育.星座.游戏.娱乐的文本数据. 赛题任务:赛 ...
- 【学习笔记】零基础入门NLP - 新闻文本分类实战
赛题理解 首先要理解赛题的背景及描述--赛题以新闻数据为赛题数据,数据集报名后可见并可下载.赛题数据为新闻文本,并按照字符级别进行匿名处理.整合划分出14个候选分类类别:财经.彩票.房产.股票.家 ...
- Task02——零基础入门NLP - 新闻文本分类之数据读取与分析
本期目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 数据读取 import pandas as pd train_df=pd.read_csv('./train_set.csv/tra ...
最新文章
- canvas.width和canvas.style.width区别以及应用
- 大咖来信|浪潮刘军:AI计算将成为“新基建”核心支撑之一
- Java开发者跳槽必备:2021阿里Java面试题目大汇总
- 当百度更新算法时,网站优化应注意哪些事项?
- 设计模式之访问者(visitor)模式
- kill 进程_Node.js 进程平滑离场剖析
- 帮人搬,上海的房子貌似不贵
- 产品入门十——互联网产品的交互设计
- DM368 Uboot
- ServletContext的学习笔记(属Servlet学习课程)
- 前端学习(1309):创建web服务器
- android9.0原生字体,iOS 9原生字体看腻了?不如学着去替换吧
- 微信分享链接,如何自定义图片,标题,内容介绍
- 深度学习2.0-33.BatchNorm
- mysql优化 my.cnf_MySQL性能调优my.cnf详解
- Lorenz系统的吸引子相图
- Unity 触摸屏操作(多点触摸)
- (二)ubuntu下安装Amd RX470驱动
- CSAPP datalab
- linux rm、rm -f、rm -r的区别