数据集下载:

链接:https://pan.baidu.com/s/1PGCIz-yub3ugXYuNivlZzw
提取码:nuwl

提取出来四个数据集,其中chnsenticorp是主要数据

处理:

chnsenticorp分为四类:

  • ChnSentiCorp_htl_ba_2000:2000条旅店住宿review,label均衡
  • ChnSentiCorp_htl_ba_4000:4000条旅店住宿review,label均衡
  • ChnSentiCorp_htl_ba_6000:6000条旅店住宿review,label均衡
  • ChnSentiCorp_htl_unba_10000(其实应该只有7000左右,解压的时候会把报错): 7000条,只有pos

这里以6000的为例,有pos和neg两个文件夹,每个文件夹下各3000 .txt文档,每个文档是一条对应情感的review:



准备将其处理成两个.txt文档,方便后续使用:

import os
import codecsfolder=["./neg","./pos"]
record=dict()for fold in folder:record[fold]=0out_file = fold + "_6000.txt"out = codecs.open(out_file,"w",errors="ignore",encoding="gbk")for _,_,filenames in os.walk(fold):for filename in filenames:file=codecs.open(os.path.join(fold, filename).replace("\\",'/'), "r",errors="ignore",encoding="gbk")context = file.read()file.close()context=context.replace('\n', '').replace('\r', '')+"\n"out.writelines(context)record[fold]+=1out.close()print("record:",record)

再将其处理成json格式,为每一条sentence再给一个id号(因为本人需要后续使用Transformer,读者可以不用):

import json
import randomdef shuffle2list(a: list, b: list):# shuffle two list with same rule, you can also use sklearn.utils.shuffle packagec = list(zip(a, b))random.shuffle(c)a[:], b[:] = zip(*c)return a, bsen_lis=[]
label_lis=[]
# pos:1;
# neg:0;
res=[]
with open("./pos_6000.txt","r",errors="ignore",encoding="gbk") as pos,open("./neg_6000.txt","r",errors="ignore",encoding="gbk") as neg:lines=pos.readlines()for line in lines:sen_lis.append(line.strip("\n"))label_lis.append(1)lines=neg.readlines()for line in lines:sen_lis.append(line.strip("\n"))label_lis.append(0)sen_lis,label_lis=shuffle2list(sen_lis,label_lis)for i in range(len(sen_lis)):item=dict()item["guid"]=iitem["text_a"]=sen_lis[i]item["label"]=label_lis[i]res.append(item)print("all of %d instances"%(i+1))with open("./ChnSenticrop.json","w") as jfile:json.dump(res,jfile,ensure_ascii=False)

洗好之后:

chnsenticorp数据集及其处理相关推荐

  1. 最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

  2. 计算机组成原理sop,MacBERT:MLM as correction BERT

    本次分享的论文MacBERT,来自哈工大SCIR实验室,收录于Findings of EMNLP 子刊,全名为Revisiting Pre-Trained Models for Chinese Nat ...

  3. 强力推荐!飞桨产业级PaddleNLP最新全景图发布

    导读:PaddleNLP是飞桨开源的产业级NLP工具与预训练模型集,提供了依托于百度实际产品打磨,通过百亿级大数据训练的预训练模型,能够极大地方便 NLP 研究者和工程师快速应用.使用者可以用Padd ...

  4. huggingFace 中文模型实战——中文文本分类

    学习了哔哩哔哩up主--兰斯诺特 视频后做的学习笔记 代码网址 https://github.com/lansinuote/Huggingface_Toturials upz主推荐书:<基于Be ...

  5. UER-py快速上手

    快速上手UER 模型及数据集 书评语料 MLM目标任务 LSTM(代替transformer) ELMo 微调GatedCNN模型 分类任务上交叉验证 模型及数据集 我们首先使用BERT模型和豆瓣书评 ...

  6. 快速上手UER-py

    快速上手UER-py 1.前言 2.书评分类(BERT模型) 1.前言 预训练已经成为自然语言处理任务的重要组成部分,为大量自然语言处理任务带来了显著提升. UER-py(Universal Enco ...

  7. 『NLP打卡营』实践课5:文本情感分析

    『NLP直播课』Day 5:情感分析预训练模型SKEP 本项目将详细全面介绍情感分析任务的两种子任务,句子级情感分析和目标级情感分析. 同时演示如何使用情感分析预训练模型SKEP完成以上两种任务,详细 ...

  8. 【PaddleNLP学习】PaddleNLP笔记

    PaddleNLP笔记 一.信息抽取 UIE(Universal Information Extraction) 实体抽取 关系抽取 事件抽取 评论观点抽取 情感分类 跨任务抽取 二.中文分词 文档级 ...

  9. PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

    相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

  10. NLP判断语言情绪_最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

最新文章

  1. 每一个科学家的内心都住着一位哲学家(节选)
  2. Android设备adb授权的原理【转】
  3. [html] 写一个三栏布局,中间固定,两边自适应(平均)
  4. 直接在 CSS 中引用 FONTAWESOME 图标(附码表)
  5. 企鹅电竞宣布将于6月7日终止运营
  6. 指定jupyter运行的conda环境和报错处理generator_to_async_generator
  7. 黑客雇佣组织开发出新型的Windows 隐秘后门
  8. Pidgin cannot connect to MSN: the certificate chain presented is invalid
  9. vue-calendar 基于 vue 2.0 开发的轻量,高性能日历组件
  10. 考研_数学二_中值定理_证明题_辅助函数的设法
  11. 【渝粤题库】陕西师范大学201041德育论 作业(专升本)
  12. 尚硅谷kylin单机版之安装kylin
  13. 好123主页篡改修复方法
  14. Java支付宝订单查询
  15. JAVA#泛型'学习札记
  16. ElGamal 算法思考
  17. 有哪些既实用又好看的蓝牙耳机?高颜值实用蓝牙耳机排行
  18. JAVA的成长之路(自勉)
  19. 1+x大数据应用开发(java)理论题库/初级题库测验10
  20. 基于改进萤火虫算法的图像分割的应用(Matlab代码实现)

热门文章

  1. 浪潮服务器SSD盘咋查看信息,浪潮存储为你揭秘:保障SSD数据可靠性的“黑科技”...
  2. 郑捷《机器学习算法原理与编程实践》学习笔记(第六章 神经网络初步)6.5 Boltzmann机算法...
  3. 分子量(Molar Mass, ACM/ICPC Seoul 2007, UVa1586)java
  4. 面试时工作经验不足,如何才能打动HR?
  5. 修复无线网卡网络适配器报错代码56
  6. Day101.MyBatisPlus(MP):自动填充、乐观锁、分页、逻辑删除、Wrapper条件构造器
  7. C# base64获取图片后缀
  8. CircularProgressIndicator
  9. c# wifi串口通信_C#串口通信 SerialPort类
  10. SQLServer的top 100 percent用法