NLP数据集整理(更新中)
Ⅰ. NLP数据集整理
中英文NLP数据集搜索平台,点击搜索
一、情感分析
ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
---|---|---|---|---|---|---|---|
1 | weibo_senti_100k | 无 | 无 | 带情感标注新浪微博,正负向评论约各 5 万条 | 微博 | 二分类任务 | 无 |
2 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | 微博语料,标注了7类 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 | 微博 | 多分类任务 | 论文出处 |
3 | NLPCC2013 | 2013 | CCF | 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子。 | 微博 | 多分类任务 | 无 |
4 | NLPCC2014 Task1 | 2014 | CCF | 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博。 | 微博 | 多分类任务 | 无 |
5 | NLPCC2014 Task2 | 2014 | CCF | 标注了正面和负面2种情感。 | 微博 | 2分类任务 | 无 |
6 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 | 汽车 | 属性情感分析、主题情感分析 | 无 |
7 | AI Challenger 细粒度用户评论情感分析 | 2018 | 美团 | 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 | 美团餐饮 | 属性情感分析 | 无 |
8 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | 金融 | 实体情感分析 | 无 |
二、文本分类
三、文本匹配
四、文本摘要
五、机器翻译
六、NER
七、QA
八、知识图谱
九、语料库
十、阅读理解
十一、多模态
1.图片数据集
- Image Net数据集:http://www.image-net.org
2.视频数据集
- List item
Ⅱ. 其他内容
一、汉语拆字字典
- 英文可以做char embedding,中文可以试试拆字字典
- 或使用Bert预训练模型对汉语进行拆字。
二、中文数据集平台
搜狗实验室,提供了一些高质量的中文文本数据集,多为2012年以前的数据:传送门
中科大自然语言处理与信息检索共享平台:传送门
三、中文语料小数据
包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据:传送门
维基百科数据集:传送门
NLP工具
(1)THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。
(2)HanLP:https://github.com/hankcs/HanLP
(3)哈工大:LTP https://github.com/HIT-SCIR/ltp
(4)NLPIR:https://github.com/NLPIR-team/NLPIR
(5)jieba:https://github.com/yanyiwu/cppjieba
(6)百度千言数据集:https://github.com/luge-ai/luge-ai
Ⅲ. 一些有趣的工作
一、物体检测与分割
网址:https://github.com/matterport/Mask_RCNN
二、样式迁移
网址:https://github.com/zhanghang1989/MXNet-Gluon-Style-Transfer
三、文字生成图片
网址:https://openai.com/blog/dall-e/
参考文章:来自简书
参考视频:来自B站
NLP数据集整理(更新中)相关推荐
- linux的网络命令整理 更新中
linux的网络命令整理 更新中 1.安装包: net-tools 主要命令: netstat , ifconfig , route , iptunnel iproute 主要命令: ss , ip ...
- 2022年最新互联网大厂前端面试题及答案-前端工程必备技能(持续整理更新中【关注收藏不迷路】)
对于做前端的朋友,或者做了前端几年了,基础不好的,或者想进大厂的想了解深入,下面的知识点很多前端朋友都没有深入了解.很重要,看完有种茅塞顿开感觉,**关注+收藏哦,总有一天用的得.** 涉及到知识点: ...
- 绿鹅等大厂2020Android面试经验(持续整理更新中)
1.Android 四大组件 Activity,Service,Content provider,broadcast receiver. 详情 2. Activity的4种启动方式 standard, ...
- 前端开发常用PhotoShop快捷键整理(更新中)
图片来源 UI提供的psd图 印屏幕:PrScrn SysRq(键盘按键) 浏览器(插件)获取 常用的快捷键: 新建 Ctrl + N 取消选框 Ctrl + D 反选 Ctrl + shift + ...
- 实体对齐(Entity Alignment)相关论文与数据集整理
实体对齐(Entity Alignment).知识图谱融合论文方法总结整理 传统的实体对齐方法主要通过属性相似度匹配的方式实现,利用有监督学习的机器学习模型,如:决策树.支持向量机.集成学习等.依赖实 ...
- 各类数据集整理(持续更新中ing)
转自:https://zhuanlan.zhihu.com/p/84088095 最近一次新增:2020.02.11 大家好,先给各位抱拳了!我是和鲸(科赛 http://kesci.com)的运营一 ...
- 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)
[对话生成]常见对话生成数据集整理,含下载链接(持续更新) 前言 用于对话理解的对话数据集 IEMOCAP SEMAINE Mastodon MELD EMOTyDA MEmoR M3^33ED CP ...
- 常用公开人脸数据集汇总,持续更新中~~
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 文章目录 一. 人脸数据汇总表 1.人脸检测 2.人脸关键点检测 3.人脸表情 4.年龄与性别 5.人脸姿态 6.人 ...
- 【收集】NLP语料库数据集+持续更新
来源:大数据文摘 本文共4270字,建议阅读7分钟. 本文为你奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表. 奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化 ...
最新文章
- 关于prefrenceactivity和preferencefragment的作用
- matlab 多项式表达,MATLAB自学笔记(十七):多项式及其函数
- Redis数据结构详解之Zset(五)
- 深度学习2.0-10.tensorflow的高阶操作之张量的限幅
- 21秋期末考试电子商务概论10250k2
- OPNsense19.1.9语言包更新文件
- VC++ IE缓存管理研究
- 解决CAD输出PDF字体周围有边框
- (转)Windows 批处理(bat)语法大全
- Ubuntu安装python步骤
- 微信公众号开发及h5分享兼容性问题总结
- IT行业岗位薪资大调查:收入最高的职位是什么?
- windows10自带我的文档等路径修改
- 使用tushare计算北上资金持仓成本
- IP 地址冲突检测程序源码(解决某种情况下检测无效的问题)
- Win7系统中,如何关闭Windows默认的防火墙? win7如何关闭防火墙
- 2021年企业十大科技趋势预测
- Self6D: Self-Supervised Monocular 6D Object Pose Estimation论文翻译
- mac使用迅雷下载资源
- 手动挡五个档位示意图_手动挡各个档位怎么使用 正确的操作方式大家要知道...