文本分类:4、工程经验
数据决定上限,模型逼近上限。工程不是刷论文,看到效果先分析数据。
写在前面:
- 夕小瑶:文本分类中的重要tricks
- 娄杰(2020.01):NLP分类任务中的11个关键问题
- 娄杰(2020.06):文本增强+半监督学习,解决少样本困境
- 其他:企业中的文本分类
文本分类:给定一段文本,预测一个或多个标签
分类示例:新闻分类(体育、政治等)、情感分类(高兴、伤心等)
技术侧划分:
- 文本长度:短句、段落、文章
- 预测标签:一个、多个 (层级标签)
- 标签数量:二分类、多类别分类 (根据问题,设计Loss)
我主要处理的是「口语化短文本」(不超过15个字),因为是语音转文本后的数据,query中还包括ASR错误,比较难的是「单实体词,如“天安门 / 景点、"肯德基 / 美食”」。
「如何融入知识」 是个问题。。。
前辈经验:
1、训练数据量、标签量
每个标签下数据要有足够的丰富度,新case要能找到相似问法。 训练集不能有太多脏数据 每个标签下数据量要足够 数据决定一切
2、数据来源
用户行为数据、人工标注、主动学习方法预标注、规则抽取
3、评估与调整
关注过拟合、训练loss 关注80%,先做好头部标签
不要只看预测的top1标签F1,top2的标签是否可接受;分析badcase,能在数据层解决 就 处理数据。
类目不均衡问题
「模型调参」是个技术活,但可以写脚本网格搜索啊。。。
4、模型提升点
文本分类可融入特征,如 类目、品牌、点击量、用户信息等。
适当时候,可以调整标签量 / 标签树结构。
迁移学习,如Bert;联合学习等。
实体化,融入知识 / 词典 等信息。
5、迭代质量----分析、记录每次实验
磨刀不误砍柴工 搭建快速实验分析的流程,tensorboard、checkpoint、评测脚本、badcase分析 等。
技术发展太快,paper要读、代码要写,gap要重视!
Speak is cheap, give me the code.
文本分类:4、工程经验相关推荐
- NLP文本分类入门学习及TextCnn实践笔记——模型训练(三)
这篇记模型训练. 距离第一篇已过去一个月.从学习到正式启动模型训练,花了两周.模型训练召回率和准确率达到上线标准又花了两三周. 训练及测试样本评估的精确率都是97%.98%,结果一到线上实验,结果惨不 ...
- 300万知乎多标签文本分类任务经验分享(附源码)
来源:大数据挖掘DT数据分析 本文长度为4600字,建议阅读6分钟 本文为你分享知乎看山杯冠军团队参赛经验. 后台回复回复关键词"PT"即可获取源码(PyTorch实现)githu ...
- 【Paddle 经验分享】利用PaddleHub 2.x 完成文本分类训练的坑
CSDN原文链接:https://blog.csdn.net/kinfey/article/details/117254781 基于项目选择了PaddlePaddle 作为文本分类的基础,经过一周多的 ...
- 从文本分类问题中的特征词选择算法追踪如何将数学知识,数学理论迁移到实际工程中去...
博文转载请注明作者和出处(作者:finallyliuyu :出处博客园) 附:<卡方特征词选择算法> <DF特征词选择算法> 一.数学背景 将数学知识.数学理论以及数学思想迁移 ...
- 【NLP】授人以渔:分享我的文本分类经验总结
在我们做一个项目或业务之前,需要了解为什么要做它,比如为什么要做文本分类?项目开发需要,还是文本类数据值得挖掘. 1.介绍 目前讨论文本分类几乎都是基于深度学习的方法,本质上还是一个建模的过程,包括数 ...
- CNN在文本分类的应用(内有代码实现) 论文Convolutional Neural Networks for Sentence Classification
一.CNN文本分类简介 文本分类是NLP领域的一个重要子任务,文本分类的目标是自动的将文本打上已经定义好的标签,常见的文本分类任务有: 用户评论的情感识别 垃圾邮件过滤 用户查询意图识别 新闻分类 由 ...
- 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...
- 用深度学习解决大规模文本分类问题
用深度学习解决大规模文本分类问题 人工智能头条 2017-03-27 22:14:22 淘宝 阅读(228) 评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者 ...
- 终于有人把文本分类讲明白了!
互联网技术的快速普及和发展,已经成为现如今的一大奇迹.互联网中,最重要之一的就是数据,而对数据进行分类.整理是重要的一环.在这些重要的数据中,文本数据又是最大的一类.所以,文本分类至关重要. 文本分类 ...
最新文章
- .Net开源 Shuttle(飞梭)服务总线(ESB)入门
- c++抽象类在多继承中的应用
- HTML span标签学习笔记
- 【记忆化搜索】bzoj3208 花神的秒题计划Ⅰ
- OpenXml开发-向Excel2007文档中添加数据
- 410. 分割数组的最大值
- GNN + Zero-shot
- fh 幅频特性曲线怎么画fl_北京消防,关于消防图,你怎么看?
- VMware 开启笔记本摄像头
- video标签隐藏右下角的三个点
- 投影幕布尺寸计算器_投影幕尺寸是怎么算的
- 随机漫步python程序
- 今天就给大家介绍一个抢购茅台的小技巧,不需要安装Python,不需要配置环境,就和你在电脑上安装使用QQ等软件一样
- 大二下-个人课堂总结
- 设置windows开机隐藏启动,隐藏欢迎界面
- 运维自动化之salt
- 用python实现淘宝毫秒级秒!! 天猫淘宝的抢购完美实现 而且说实话有很多人需要它。 每次在抢购前的无法提交订单导致很多买家无法购买。 今天我教给大家如何更好快速实现你的购买愿望! 教程如下!请仔
- 8000 sentences of oral English(four)
- 笑死人不偿命的程序员内涵段子
- 敏捷开发实践——Team Captain如何把控项目风险