【NLP】中文情感分类单标签
章节
背景介绍
预处理
完整的 GitHub 项目代码地址:
https://github.com/sherlcok314159/ML/blob/main/nlp/practice/sentiment.md
背景介绍
这次的任务是中文的一个评论情感去向分类:
每一行一共有三个部分,第一个是索引,无所谓;第二个是评论具体内容;第三个是标签,由0,1,2组成,1代表很好,2是负面评论,0应该是情感取向中立。
数据预处理
bert模型是可以通用的,但是不同数据需要通过预处理来达到满足bert输入的标准才行。
首先,我们创造一个读入自己数据的类,名为MyDataProcessor。其实,这个可以借鉴一下谷歌写好的例子,比如说MrpcProcessor。
首先将DataProcessor类复制粘贴一下,然后命名为MyDataProcessor,别忘了继承一下DataProcessor。
接下来我们以get_train_examples为例来简单介绍一下如何读入自己的数据。
第一步我们需要读取文件进来,这里需要注意的是中文要额外加一个utf-8编码。
读取好之后,这里模仿创建train_data为空列表,索引值为0。
代码主体跟其他的差不多,有区别的是我们这里并没有用DataProcessor的_read_tsv方法,所以文件分割部分我们得自己写。同时因为中文每行结束会有换行符("\n"),需要换为空白。
至于dev和test数据集处理方式大同小异,只需要将名字换一下,这里不多赘述,这里放了处理训练集的完整函数。
然后get_labels方法,里面写具体的labels,这里是0,1,2,那么就是0,1,2,注意不要忘了带上英文引号就行。最重要的是去main(_)方法下面添加自己定义的数据处理类别
模型去bert官方下载中文的预训练模型,其他的对着改改就好,相信看过我的文本分类(https://github.com/sherlcok314159/ML/blob/main/nlp/tasks/text.md)的剩下的都不需要多说。跑出来的结果如下,我用的是Tesla K80,白嫖Google Colab的,用时1h17min47s。
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808,加入微信群请扫码:
【NLP】中文情感分类单标签相关推荐
- 基于ERNIR3.0文本分类:(KUAKE-QIC)意图识别多分类(单标签)
PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例[多分类(单标签)] 0.前言:文本分类任务介绍 文本分类任务是自然语言处理中最常见的任务,文本分类任 ...
- PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】
相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...
- PaddlePaddle飞桨《高层API助你快速上手深度学习》『深度学习7日打卡营』--自定义数据集OCEMOTION–中文情感分类
赛题背景 自从2017年具有划时代意义的Transformer模型问世以来,短短两年多的时间内,如雨后春笋般的出现了大量的预训练模型,比如:Bert,Albert,ELECTRA,RoBERta,T5 ...
- 机器学习:朴素贝叶斯算法+中文情感分类+python
朴素贝叶斯中文情感分类 1.写在前面 朴素贝叶斯算法理论在很多博客上已经解释的很详细了,本文就不再叙述,本文注重于算法的应用以及编程实现,在读取前人的博客以及他们的项目应用,本人结合书本<机器学 ...
- BERT_中文情感分类操作及代码
本实验,是用BERT进行中文情感分类,记录了详细操作及完整程序,代码链接,喜欢的话给个star哟(凑不要脸~) 本文参考奇点机智的文章,记录自己在运行BERT中的一些操作. BERT的代码同论文里描述 ...
- 基于PyTorch+Conv-GRNN LSTM-GRNN实现中文情感分类任务
前言 大家好,我是阿光. 本专栏整理了<PyTorch深度学习项目实战100例>,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集. 正在更新 ...
- 基于PyTorch+HAN实现中文情感分类任务
前言 大家好,我是阿光. 本专栏整理了<PyTorch深度学习项目实战100例>,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集. 正在更新 ...
- 中文文本情感分类及情感分析资源大全
摘要:20世纪初以来,文本的情感分析在自然语言处理领域成为了研究的热点,吸引了众多学者越来越多的关注.对于中文文本的情感倾向性研究在这样一大环境下也得到了显著的发展.本文主要是基于机器学习方法的中文文 ...
- 自然语言处理课程作业 中文文本情感分类
摘要:20世纪初以来,文本的情感分析在自然语言处理领域成为了研究的热点,吸引了众多学者越来越多的关注.对于中文文本的情感倾向性研究在这样一大环境下也得到了显著的发展.本文主要是基于机器学习方法的中文文 ...
最新文章
- __asm__ __volatile__(: : :memory);
- 734. [网络流24题] 方格取数问题 二分图点权最大独立集/最小割/最大流
- 聊个天就把生信分析做了?你的未来在哪里?
- js距离米转换为千米_泰禾中央广场+恒大未来城双盘大兴,8.4米层高“空中别墅”来袭...
- Kotlin-高阶函数
- Scala 隐式转换和隐式参数
- 论文中MathType公式居中,编号右对齐
- 好一个“Exchange20003”
- js+php+mysql写的rpg网页游戏引擎源码-DotK改进版
- Java集合可分成什么类_java.util包含Java中大量工具类、集合类等,例如Arrays、List、Set等。...
- 信息化建设规划_统筹规划精准发力打造信息化建设新篇章
- iOS及Mac开源项目和学习资料
- 苹果cms模板_9ccms与苹果cms介绍.推荐小白用9ccms程序
- 第2章 蓝牙降噪耳机测试维度
- 离散数学实验二 真值表
- 改变边框线条与背景重叠的布局
- HTML+CSS画同心圆
- Web网页设计之jQuery_1. 认识jQuery
- 入门系列:gdb学习——函数调用时参数传递
- 科技新品 | 第一视角沉浸式飞行无人机;全球首款可折叠165英寸电视;新一代增强现实智能眼镜...
热门文章
- Oracle Rman 命令详解(List report backup configure)
- 第一个 Windows 应用程序
- coffeescript 下的构造函数中如何使用return语句?
- redis基础之订阅发布、主从复制和事务(四)
- 显示和隐藏系统任务栏的类
- 牛津临床和实验室调查手册 Oxford Handbook of Clinical and Laboratory Investigation
- 动物麻醉剂量和途径相关要点
- vue 组件之间函数传递_组件之间相互传递参数
- ArcGIS Server 10.2 安装教程
- 北斗导航 | 精密单点定位软件之rtklib的静态定位测试(RTKlib)