七月 上海 | 高性能计算之GPU CUDA培训

7月27-29日三天密集式学习  快速带你入门阅读全文>

正文共5260个字,21张图,预计阅读时间28分钟。

Text-CNN

1、文本分类

转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。

本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。

文本分类是自然语言处理领域最活跃的研究方向之一,从样本数据的分类标签是否互斥上来说,可以分为文本多分类与文本多标签分类。

文本分类

目前文本分类在工业界的应用场景非常普遍,从新闻的分类、商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比较好的切入点,较简单且应用场景高频。

2、  数据准备

在机器学习领域有一句话:数据决定了模型最终的高度,不断优化的模型只不过是为了不断逼近这个高度而已。

文本分类作为一种有监督学习的任务,毫无疑问的需要一个可用于有监督学习的语料集(X,Y)。本文中使用以下标记,X为特征,文本分类中即为文本序列,Y是标签,即文本的分类名称。

机器学习与传统编程技术的明显区别就是:机器学习是以数据为驱动的,传统的编程中,我们核心任务是人工设计分类规则(指令代码),然后实现输入特征X获得分类标签Y。而在机器学习的方式中,我们首要的是获得一个高质量的、大数据量的有监督语料集(X,Y),然后机器学习的方式会自动的从已构建的数据集上归纳出(训练出)一套分类规则(分类模型),最后我们利用获得的分类规则来实现对未标记文本的分类。

机器学习VS传统编程

换言之,传统的编程方式输入的是指令代码,而机器学习输入的是结构化数据。

因此,在机器学习任务中,数据的质量与数量对最终模型的预测结果好坏具有决定性的作用。

常言道:Garbage in, garbage out!

在文本分类中,语料集(X,Y)的质量、数量决定了文本分类模型的分类效果。

语料集的质量:即数据集的特征X对应的标签Y是否标记的正确,一般在众包平台中会采用多人重复标记,然后基于投票的机制来控制语料集的标记质量。

语料集的数量:有监督语料集的标注复杂度,想要获得海量的高质量语料集的成本是十分高昂的,这也限制的语料集的数量。

在实际的文本分类任务中,一般通过搜集开源的数据集,或者利用爬虫获取结构化的网页信息来构建特定任务的语料集。不过,我还是更喜欢关注一些公开的竞赛项目,能够获得企业准备的高质量、应对真实业务场景的数据集,例如:kaggle、知乎的看山杯、mrc2018-cipsc等,但大多数情况下企业只给脱敏之后的数据

基于Text-CNN模型的中文文本分类实战相关推荐

  1. textcnn文本词向量_基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类.商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比 ...

  2. PyTorch入门(五)使用CNN模型进行中文文本分类

      本文将会介绍如何在PyTorch中使用CNN模型进行中文文本分类.   使用CNN实现中文文本分类的基本思路: 文本预处理 将字(或token)进行汇总,形成字典文件,可保留前n个字 文字转数字, ...

  3. 基于CNN中文文本分类实战

    一.前言 之前写过一篇基于循环神经网络(RNN)的情感分类文章,这次我们换种思路,采用卷积神经网络(CNN)来进行文本分类任务.倘若对CNN如何在文本上进行卷积的可以移步博主的快速入门CNN在NLP中 ...

  4. 【NLP】BERT 模型与中文文本分类实践

    简介 2018年10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Language Understan ...

  5. 【文本分类】基于改进TF-IDF特征的中文文本分类系统

    摘要:改进TFIDF,提出相似度因子,提高了文本分类准确率. 参考文献:[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556 ...

  6. 基于 spark ml NaiveBayes实现中文文本分类

    思路: 1  准备数据 2,代码编写 准备数据       这里数据我将它分为两类, 1 军事,2 nba   , 我将文件数据放在下面   代码编写: 这里面我用的是spark  ml  进行代码的 ...

  7. linux tf2 中文,tf2+cnn+中文文本分类优化系列(2)

    1 前言 接着上次的tf2+cnn+中文文本分类优化系列(1),本次进行优化:使用多个卷积核进行特征抽取.之前是使用filter_size=2进行2-gram特征的识别,本次使用filter_size ...

  8. Pytorch TextCNN实现中文文本分类(附完整训练代码)

    Pytorch TextCNN实现中文文本分类(附完整训练代码) 目录 Pytorch TextCNN实现中文文本分类(附完整训练代码) 一.项目介绍 二.中文文本数据集 (1)THUCNews文本数 ...

  9. 中文文本分类的java包_java实现中文文本分类

    基于libsvm 的中文文本分类原型支持向量机(Support Vector M... 基于SSPP-KELM多标签文本分类算法的实现_电子/电路_工程科技_专业资料.文本数据分类后,根据类标签的个数 ...

最新文章

  1. Camelyon Challenge: 癌症细胞区域检测竞赛
  2. 从GNOME切换到KDE了
  3. VS不能编译指定版本(配置管理错误)
  4. python 查找算法_python快速查找算法应用实例
  5. RabbiqMQ快速入门
  6. Python 中,matplotlib绘图无法显示中文的问题
  7. Python学习笔记之函数(五)
  8. IntelliJ IDEA lombok插件的安装和使用
  9. 记录一个美丽的小县城
  10. java打印条形码Code128C
  11. Flutter29,毕向东java基础全套视频教程百度网盘
  12. 电子元器件解析01——电阻
  13. html调起苹果手机摄像头_Html5调用手机摄像头并实现人脸识别的实现
  14. 深度学习系列 -- 神经网络和深度学习(Neural Networks and Deep Learning)(一):深度学习引言以及神经网络编程基础
  15. 2022年镇海夏令营组合数学和数论班 —— 数学作业 1
  16. B站这场跨年晚会价值60亿,凭啥?
  17. mysql复制表的数据和结构(可跨越数据库)
  18. 判定南京配眼镜哪家好的三步骤,轻松解决配镜烦恼
  19. 了解redis的单线程模型工作原理?一篇文章就够了
  20. OSEA中QRS波检测算法

热门文章

  1. mysql join buffer_MySQL cache之join buffer的优化
  2. linux系统grep用法,Linux系统中怎么使用grep命令?
  3. 一份完整的问卷模板_如何写出一份优秀的个人简历?
  4. 三人小组关系c语言编程,理性分析一下c-block三人组的实力
  5. python 贴吧自动回复_利用Python实现微信自动回复!我打游戏再也不怕女朋友发信息了...
  6. 处理移动端pdf展示问题
  7. 设计模式-15-建造者模式
  8. python---字符编码
  9. Swift - 操作表(UIActionSheel)的用法,也叫底部警告框
  10. Ural_1003 Parity(并查集)