数据集地址:https://nlp.stanford.edu/sentiment/code.html 

datasetSentences.txt  格式:句子索引 句子内容

datasetSplit.txt  格式:句子索引 句子属于哪个集合(1 = train   2 = test   3 = dev)

train有8544条,dev有1101条,test有 2210条

dictionary.txt  格式 :句子(或者短语)| 索引值

sentiment_labels.txt  格式:索引值 | 情感值

句子和短语总有239232条

情感值对应类别:[0, 0.2], (0.2, 0.4], (0.4, 0.6], (0.6, 0.8], (0.8, 1.0] 分别对应五分类情感

将其处理成一句对应一个分数,并且分成训练集和验证集和测试集,和原本的数据些微差别,训练集,验证集,测试集都比原来少了几条数据,因为datasetSentences.txt 中有些句子里面的人名表示有特殊字符,和 dictionary.txt 中的匹配不上,你也可以手动加上。

python代码如下:

# Copyright 2018 lww. All Rights Reserved.
# coding: utf-8
from __future__ import print_function
from __future__ import division
from __future__ import absolute_importdef delblankline(infile1, infile2, trainfile, validfile, testfile):with open(infile1, 'r') as info1, open(infile2, 'r') as info2, \open(trainfile, 'w') as train, open(validfile, 'w') as valid, open(testfile, 'w') as test:lines1 = info1.readlines()lines2 = info2.readlines()for i in range(1, len(lines1)):t1 = lines1[i].replace("-LRB-", "(")t2 = t1.replace("-RRB-", ")")k = lines2[i].strip().split(",")t = t2.strip().split('\t')if k[1] == '1':train.writelines(t[1])train.writelines("\n")elif k[1] == '2':test.writelines(t[1])test.writelines("\n")elif k[1] == '3':valid.writelines(t[1])valid.writelines("\n")print("end")def tag_sentiment(infile,infile0, infile1, infile2):# ("sentiment_labels.txt", "dictionary.txt", "train.txt","train_final.txt")with open(infile, 'r') as info, open(infile0, 'r') as info0, open(infile1, 'r') as info1, \open(infile2, 'w') as info2:lines = info.readlines()lines0 = info0.readlines()lines1 = info1.readlines()text2id = {}for i in range(0, len(lines0)):s = lines0[i].strip().split("|")text2id[s[0]] = s[1]id2sentiment = {}for i in range(0, len(lines)):s = lines[i].strip().split("|")id2sentiment[s[0]] = s[1]for line in lines1:if line.strip() not in text2id:print(line.strip())# 由于特殊字符不匹配造成continueelse:text_id = text2id[line.strip()]sentiment_score = id2sentiment[text_id]info2.write(line.strip() + "\n" + str(sentiment_score) + "\n")print("end3d1")delblankline("datasetSentences.txt", "datasetSplit.txt", "train.txt", "valid.txt", "test.txt")
# 获取原始的训练集,测试集,验证集
# train有8544条,dev有1101条,test有 2210条
tag_sentiment("sentiment_labels.txt", "dictionary.txt", "train.txt","train_final.txt")
tag_sentiment("sentiment_labels.txt", "dictionary.txt", "test.txt","test_final.txt")
tag_sentiment("sentiment_labels.txt", "dictionary.txt", "valid.txt","valid_final.txt")
# 获取训练集,测试集,验证集句子对应的情感值
# 由于文本里面的特殊字符造成的不匹配,训练集,测试集,验证集会相对于上一步少几条

处理过后得到的数据为 train_final.txt,test_final.txt,valid_final.txt

stanford sentiment treebank 数据集相关推荐

  1. cs224u Overview of the Stanford Sentiment Treebank

    cs224u Overview of the Stanford Sentiment Treebank 本文有几个相互关联的目标: •针对长期以来一直是学术研究和行业应用核心的问题:情感分析,提供监督学 ...

  2. 读论文Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

    读论文Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank 原地址:https://blog.cs ...

  3. Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

    Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载 Penn Treebank数据集介绍 NLP底层技术之句法分析 NLP常用公开数 ...

  4. 每天接触大量论文,看看他们是怎样写笔记的 | PaperDaily #09

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. OpenAI新研究:通过非监督学习提升NLP任务表现

    唐旭 编译整理 量子位 出品 | 公众号 QbitAI 今天,OpenAI在其官方博客上发布了一篇题为<用非监督学习来提升语言理解>的文章,介绍了他们最近的一项研究:Improving L ...

  6. OpenAI 发现独特情感神经元,无监督学习系统表征情感取得突破

    新智元编译 来源:OpenAI 翻译:弗格森 零夏 [新智元导读]OpenAI 的研究员今天在博客上宣布,他们开发了一个无监督学习的系统,能够很好地对情感进行表征.在数据集 Stanford Sent ...

  7. NLP的这一年2017:深度学习或成主角

    在过去几年,深度学习(DL)的架构和算法在很多领域都取得了里程碑似的进展,例如图像识别和语言处理. 起初,深度学习在自然语言处理(NLP)中的应用并不起眼,但后来却出现了许多重量级的成果,例如命名实体 ...

  8. 68款大规模机器学习数据集,涵盖CV、语音、NLP | 十年资源集

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla ...

  9. 这是一份非常全面的开源数据集!

    Datawhale推荐 来源:机器之心编译 近期,skymind.ai 发布了一份非常全面的开源数据集.内容包括生物识别.自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最 ...

最新文章

  1. 干货!这里有一份神经网络入门指导,请收下!
  2. 我不是人:一年发论文180篇,横跨多个学科领域,收获99次引用
  3. WritableComparable排序案例(全排序)
  4. Phalcon和YII的优点
  5. python代码 程序员编程艺术 2.1
  6. [react] 说说你对Relay的理解
  7. [css] OOCSS有哪些好处?对应的库有哪些?
  8. 深入学习二叉树(二) 线索二叉树
  9. Python安装Pytorch教程(图文详解)
  10. Linux(Fedora 20) EFI 启动Windows出错 \EFI\Microsoft\Boot\bootmgfw.efi is missing
  11. 一个实例明白AutoResetEvent和 ManulResetEvent的用法
  12. 总结篇——mysql中使用sql语句操作表字段
  13. 正则表达式过滤多个词语并替换为相同长度的星号
  14. IE、FF CSS 兼容性、兼容浏览器的技巧 2
  15. msdev.exe 应用程序错误 的解决办法
  16. 分数加减乘除混合运算带答案_分数加减乘除混合运算专项训练
  17. FZUOJ 2214 Knapsack problem 背包
  18. 神经网络参数量和计算量,神经网络是参数模型吗
  19. 财路网每日原创推送:区块链金融产业前景广阔
  20. oracle 数据库密码生产同步模拟环境 ,随记常用命令

热门文章

  1. 位置采集[置顶] iPhone手机上的GPS位置信息采集与分享应用
  2. XCode 4.0 iOS SDK 4.3 iPhone证书破解 完全教程
  3. POJ 1716 Integer Intervals
  4. 用计算机字符写名字,NSIS:把计算机名转换为大写或小写字符
  5. Flask常见问题记录
  6. 学会这篇文章分享的知识,你就超过了90%的测试人
  7. 后端服务接口都在测试什么?怎么测?
  8. 内卷时代,普通测试员的铁饭碗究竟是什么?
  9. 进入阿里做测试员遥不可及?这里或许有你想要的答案
  10. 创业负债累累 | 失败了的我还如何翻盘?是天台见! 我的故事还只是从这件事开始...