天池有些长期比赛可以练习玩玩(还可以继续提交),于是试了下简单的新闻文本分类任务,Top1的解决方案思路是”预训练+fgm+交叉验证模型融合“,代码是基于bert4keras的,本人基于bert4torch复现了”fgm+交叉验证模型融合“部分(未复现预训练),默认参数下f1=0.9727,具体详细详细解决方案请参考原作者。

  • 比赛链接:零基础入门NLP - 新闻文本分类
  • Top1:天池新闻分类Rank1
  • 复现项目链接:bert4torch复现项目

复现指标

  • 三个指标分别为作者提交,本人自己跑,bert4torch复现跑
解决方案 说明 指标
Top1 —— 正式赛f1=0.9735
Top1复跑 bert以第1折交叉epoch=5初始化,1个epoch,seed=0, 1993, 2020三者融合 长期赛f1=0.9736
Top1_bert4torch复现 bert+attn+fgm+cv 长期赛f1=0.9727, dev_5cv=(0.97083, 0.97074, 0.96914, 0.96892, 0.96613)

bert4torch框架介绍

bert4torch是一个基于pytorch的训练框架,前期以效仿和实现bert4keras的主要功能为主,特点是尽量简洁轻量,提供丰富示例,有兴趣的小伙伴可以试用,欢迎star。

bert4torch项目​github.com/Tongjilibo/bert4torch

天池零基础入门NLP - 新闻文本分类Top1方案的bert4torch复现相关推荐

  1. 阿里云天池 零基础入门NLP - 新闻文本分类 2种做法,F1=0.87

    problem 1.赛题理解 数据集: 在NLP_data_list_0715.csv中,有三个链接. 分别可以下载训练集,测试集A,测试样例. f1_score介绍: F1分数(F1-score)是 ...

  2. 【初学者入门】零基础入门NLP - 新闻文本分类

    序言 从今天开始入门学习NLP,虽然有点晚,但是我觉得任何时候都值得开始,尤其是面对你去感兴趣的事情.今天的任务是 [零基础入门NLP - 新闻文本分类],这是天池大赛中的入门级算法比赛,入口链接请自 ...

  3. Task01——零基础入门NLP - 新闻文本分类之赛题理解

    本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...

  4. 零基础入门NLP - 新闻文本分类

    本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...

  5. 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享

    零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g

  6. java统计文本中英文单词个数split_零基础入门NLP - 新闻文本分类Task2(天池入门赛)...

    本章主要内容是主要是通过pandas模块来进行数据分析.(注:文章只是对天池入门赛课件的学习) 一.学习目标 1.学习使用pandas读取赛题规律 2.分布赛题数据的分布规律 二.数据读取 使用pan ...

  7. 【天池学习赛】零基础入门NLP - 新闻文本分类

    一.赛题描述 赛题数据为新闻文本,并按照字符级别进行匿名处理.整合划分出14个候选分类类别:财经.彩票.房产.股票.家居.教育.科技.社会.时尚.时政.体育.星座.游戏.娱乐的文本数据. 赛题任务:赛 ...

  8. 【学习笔记】零基础入门NLP - 新闻文本分类实战

    赛题理解   首先要理解赛题的背景及描述--赛题以新闻数据为赛题数据,数据集报名后可见并可下载.赛题数据为新闻文本,并按照字符级别进行匿名处理.整合划分出14个候选分类类别:财经.彩票.房产.股票.家 ...

  9. Task02——零基础入门NLP - 新闻文本分类之数据读取与分析

    本期目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 数据读取 import pandas as pd train_df=pd.read_csv('./train_set.csv/tra ...

最新文章

  1. canvas.width和canvas.style.width区别以及应用
  2. 大咖来信|浪潮刘军:AI计算将成为“新基建”核心支撑之一
  3. Java开发者跳槽必备:2021阿里Java面试题目大汇总
  4. 当百度更新算法时,网站优化应注意哪些事项?
  5. 设计模式之访问者(visitor)模式
  6. kill 进程_Node.js 进程平滑离场剖析
  7. 帮人搬,上海的房子貌似不贵
  8. 产品入门十——互联网产品的交互设计
  9. DM368 Uboot
  10. ServletContext的学习笔记(属Servlet学习课程)
  11. 前端学习(1309):创建web服务器
  12. android9.0原生字体,iOS 9原生字体看腻了?不如学着去替换吧
  13. 微信分享链接,如何自定义图片,标题,内容介绍
  14. 深度学习2.0-33.BatchNorm
  15. mysql优化 my.cnf_MySQL性能调优my.cnf详解
  16. Lorenz系统的吸引子相图
  17. Unity 触摸屏操作(多点触摸)
  18. (二)ubuntu下安装Amd RX470驱动
  19. CSAPP datalab
  20. linux rm、rm -f、rm -r的区别

热门文章

  1. 优酷的视频搜索soku的电视剧数据
  2. 字符串转换成整数(3种方法)
  3. U盘对于目标文件系统,文件过大提示解决方法-转换Fat32为Ntfs系统
  4. 中国大学慕课 大连理工大学 C语言程序设计 第11周 结构与共用体
  5. 南京某公司二期安居房工程大事记
  6. Oracle 最值的优化 -- 利用分析函数改写
  7. 干货!DataPipeline2021数据管理与创新大会全篇划重点
  8. R数据分析:逐步回归的做法和原理,案例剖析
  9. Ventuz之连接数据[用C#脚本]
  10. 电工技术与计算机原理,电工技术2工作原理.PPT