chnsenticorp数据集及其处理

数据集下载：

链接：https://pan.baidu.com/s/1PGCIz-yub3ugXYuNivlZzw
提取码：nuwl

提取出来四个数据集，其中chnsenticorp是主要数据

处理：

chnsenticorp分为四类：

ChnSentiCorp_htl_ba_2000:2000条旅店住宿review，label均衡
ChnSentiCorp_htl_ba_4000:4000条旅店住宿review，label均衡
ChnSentiCorp_htl_ba_6000:6000条旅店住宿review，label均衡
ChnSentiCorp_htl_unba_10000(其实应该只有7000左右，解压的时候会把报错): 7000条，只有pos

这里以6000的为例，有pos和neg两个文件夹，每个文件夹下各3000 .txt文档，每个文档是一条对应情感的review：

准备将其处理成两个.txt文档，方便后续使用：

import os
import codecsfolder=["./neg","./pos"]
record=dict()for fold in folder:record[fold]=0out_file = fold + "_6000.txt"out = codecs.open(out_file,"w",errors="ignore",encoding="gbk")for _,_,filenames in os.walk(fold):for filename in filenames:file=codecs.open(os.path.join(fold, filename).replace("\\",'/'), "r",errors="ignore",encoding="gbk")context = file.read()file.close()context=context.replace('\n', '').replace('\r', '')+"\n"out.writelines(context)record[fold]+=1out.close()print("record:",record)

再将其处理成json格式，为每一条sentence再给一个id号（因为本人需要后续使用Transformer,读者可以不用）：

import json
import randomdef shuffle2list(a: list, b: list):# shuffle two list with same rule, you can also use sklearn.utils.shuffle packagec = list(zip(a, b))random.shuffle(c)a[:], b[:] = zip(*c)return a, bsen_lis=[]
label_lis=[]
# pos:1;
# neg:0;
res=[]
with open("./pos_6000.txt","r",errors="ignore",encoding="gbk") as pos,open("./neg_6000.txt","r",errors="ignore",encoding="gbk") as neg:lines=pos.readlines()for line in lines:sen_lis.append(line.strip("\n"))label_lis.append(1)lines=neg.readlines()for line in lines:sen_lis.append(line.strip("\n"))label_lis.append(0)sen_lis,label_lis=shuffle2list(sen_lis,label_lis)for i in range(len(sen_lis)):item=dict()item["guid"]=iitem["text_a"]=sen_lis[i]item["label"]=label_lis[i]res.append(item)print("all of %d instances"%(i+1))with open("./ChnSenticrop.json","w") as jfile:json.dump(res,jfile,ensure_ascii=False)

洗好之后：

chnsenticorp数据集及其处理相关推荐

最新中文NLP开源工具箱来了！支持6大任务，面向工业应用 | 资源
铜灵发自凹非寺量子位出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...
计算机组成原理sop,MacBERT：MLM as correction BERT
本次分享的论文MacBERT,来自哈工大SCIR实验室,收录于Findings of EMNLP 子刊,全名为Revisiting Pre-Trained Models for Chinese Nat ...
强力推荐！飞桨产业级PaddleNLP最新全景图发布
导读:PaddleNLP是飞桨开源的产业级NLP工具与预训练模型集,提供了依托于百度实际产品打磨,通过百亿级大数据训练的预训练模型,能够极大地方便 NLP 研究者和工程师快速应用.使用者可以用Padd ...
huggingFace 中文模型实战——中文文本分类
学习了哔哩哔哩up主--兰斯诺特视频后做的学习笔记代码网址 https://github.com/lansinuote/Huggingface_Toturials upz主推荐书:<基于Be ...
UER-py快速上手
快速上手UER 模型及数据集书评语料 MLM目标任务 LSTM(代替transformer) ELMo 微调GatedCNN模型分类任务上交叉验证模型及数据集我们首先使用BERT模型和豆瓣书评 ...
快速上手UER-py
快速上手UER-py 1.前言 2.书评分类(BERT模型) 1.前言预训练已经成为自然语言处理任务的重要组成部分,为大量自然语言处理任务带来了显著提升. UER-py(Universal Enco ...
『NLP打卡营』实践课5：文本情感分析
『NLP直播课』Day 5:情感分析预训练模型SKEP 本项目将详细全面介绍情感分析任务的两种子任务,句子级情感分析和目标级情感分析. 同时演示如何使用情感分析预训练模型SKEP完成以上两种任务,详细 ...
【PaddleNLP学习】PaddleNLP笔记
PaddleNLP笔记一.信息抽取 UIE(Universal Information Extraction) 实体抽取关系抽取事件抽取评论观点抽取情感分类跨任务抽取二.中文分词文档级 ...
PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...
NLP判断语言情绪_最新中文NLP开源工具箱来了！支持6大任务，面向工业应用 | 资源...
铜灵发自凹非寺量子位出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

chnsenticorp数据集及其处理

数据集下载：

处理：

chnsenticorp数据集及其处理相关推荐

最新文章

热门文章