深入做文本分类的同学都知道,短文本分类相对来说比较难。因为较短的文本包含的信息较少,有时候模型很难学到关键特征。

参考 https://www.zhihu.com/question/326770917/answer/698646465,指出:

对于短文本,CNN配合Max-pooling池化(如TextCNN模型)速度快,而且效果也很好。因为短文本上的关键词比较容易找到,而且Max-pooling会直接过滤掉模型认为不重要特征。具体工作机制是:卷积窗口沿着长度为n的文本一个个滑动,类似于n-gram机制对文本切词,然后和文本中的每个词进行相似度计算,因为后面接了个Max-pooling,因此只会保留和卷积核最相近的词。这就是TextCNN抓取关键词的机制。虽然Attention也突出了重点特征,但是难以过滤掉所有低分特征。而Capsules效果比CNN好,所以我个人觉得在短文本上LSTM/GRU+Capusules是一个不错模型,这也是目前Kaggle Quora比赛上(短文本分类)最好的baseline之一。

但是对于长文本直接用CNN就不行了,TextCNN会比HAN模型泛化能力差很多。当然如果在TextCNN前加一层LSTM,这样效果可以提升很大。

另外还有一点很重要的是,实际使用的模型也要看训练数据, 根据训练数据以及相关任务确定采用哪种模型比较合适, 虽然文本有长短之分,但是对于不同任务还是要考虑是否使用,对于一些简单的任务,长文本分类可以直接上BERT看效果,BERT在长文本效果比短文本好很多,也是因为预训练的时候长文本较多有关系,且因为BERT的网络结构及数据规模,时期在长文本分类等自然语言处理任务中有很好的效果。 对于一些比较复杂的任务来说,可以考虑BERT上拼接其他算法。 短文本可以按前人经验采用TextCNN尝试下效果。

参考链接:

https://www.zhihu.com/question/326770917/answer/698646465

https://www.zhihu.com/question/326770917/answer/700453702

分类算法(七)—— 短文本分类相关推荐

  1. 分类算法列一下有多少种?应用场景?分类算法介绍、常见分类算法优缺点、如何选择分类算法、分类算法评估

    分类算法 分类算法介绍 概念 分类算法 常见分类算法 NBS LR SVM算法 ID3算法 C4.5 算法 C5.0算法 KNN 算法 ANN 算法 选择分类算法 分类算法性能评估 分类算法介绍 概念 ...

  2. 神经网络分类算法是什么,神经网络分类算法简介

    人工神经网络分类方法 从20世纪80年代末期,人工神经网络方法开始应用于遥感图像的自动分类. 目前,在遥感图像的自动分类方面,应用和研究比较多的人工神经网络方法主要有以下几种:(1)BP(Back P ...

  3. 【分类算法】什么是分类算法

    目录 定义 分类与聚类 分类过程 方法 定义 分类算法的本意就是对我们的数据分进行分类.把它们分到已知的每一个类别.就像一个篮子里面有很多橙子和苹果,机器会通过我们训练出来的模型,对篮子里的水果进行分 ...

  4. 分类算法python程序_分类算法——k最近邻算法(Python实现)(文末附工程源代码)...

    kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...

  5. php实现无限极分类算法,PHP无限极分类函数的实现方法实例详解

    这篇文章主要介绍了PHP无限极分类函数的实现方法,结合实例形式详细分析了php实现无限极分类的具体思路.实现代码与相关注意事项,需要的朋友可以参考下 本文实例讲述了PHP无限极分类函数的实现方法.分享 ...

  6. [Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  7. 数据挖掘分类算法的学习总结

    一.中文摘要 大数据时代的我们每时每刻都在产生海量数据,如何快速准确获取其中有价值的数据一直是亟待解决的问题.数据挖掘技术的应运而生为该问题提供了解决手段,作为数据挖掘核心内容之一的分类算法同样发挥了 ...

  8. html标签 对word2vec,基于Word2Vec的中文短文本分类问题研究

    1 引言 移动终端的智能化和互联网技术的高速发展促使人们在移动互联网上交流的越来越频繁, 由此产生了大量的信息数据[, 这些数据多以短文本的形式作为信息传递的载体, 例如微博和即时推送新闻等, 其内容 ...

  9. python分类算法的应用_07-机器学习_(lineage回归分类算法与应用) ---没用

    机器学习算法day04_Logistic回归分类算法及应用 课程大纲 Logistic回归分类算法原理 Logistic回归分类算法概述 Logistic回归分类算法思想 Logistic回归分类算法 ...

最新文章

  1. Openldap配置TLS加密传输(完整版——shell脚本实现[即在客户端执行代码,即可实现TLS加密])
  2. 如何在CRM和C4C中用代码判断当前是否处于configuration模式
  3. VS Code 1.38 发布!
  4. 以串结构存储c语言版,数据结构C语言版 串的块链存储表示和实现
  5. .NET(C#)基于Socket编程实现平行主机之间网络通讯有图片传输的Demo演示
  6. DSP定点与浮点计算
  7. 申请计算机助理的英语作文,有关于应聘团队助理的申请信的英语作文要有中文翻译...
  8. 6.边缘检测:梯度——计算梯度Matlab实战_5
  9. [运维-服务器 – 2A] – nginx下绑定域名
  10. 使用vue-cli来搭建vue项目
  11. 深度探索C++对象模型
  12. Mac声音太小?那你不能错过这款神器Boom 2
  13. xamarin android 设备,【Xamarin.Android】在Visual Studio中增强设备日志记录
  14. 日常开支记账,自动统计用它就够了
  15. 《山里的日子(记录片)》观后感——回不去的农村
  16. NATPort ForwardingPort Triggering
  17. VC Socket编程源码
  18. android组件化单独运行
  19. 2023年中国科学技术大学计算机考研上岸前辈备考经验
  20. OSI七层模型及TCP/IP四层模型详细分析

热门文章

  1. CubeMX配置STM32实现httpd服务器CGI功能并使用网页控制STM32单片机(四)
  2. Java下载Excel的模板文件
  3. LEAP模型应用于工业、交通、建筑、电力、煤炭、炼油、经济、林业等各领域碳排放预测及建模分析
  4. 【转】2013年第一季度最具影响力的CRM排名
  5. upload 附件上传流程(限制附件大小格式)
  6. 暨 广告、推荐、搜索 三大顶级复杂业务之 “广告业务系统详叙”
  7. 某网站上传图片返回生成图像的获取
  8. log4j2漏洞简单复现
  9. php nuke是什么,phpnuke中文站 - phpnuke安装详细安装步骤
  10. 《信号与系统》示例1.单位阶跃信号的matlab实现