Ⅰ. NLP数据集整理

中英文NLP数据集搜索平台,点击搜索

一、情感分析

ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注
1 weibo_senti_100k 带情感标注新浪微博,正负向评论约各 5 万条 微博 二分类任务
2 Weibo Emotion Corpus 2016 The Hong Kong Polytechnic University 微博语料,标注了7类 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 微博 多分类任务 论文出处
3 NLPCC2013 2013 CCF 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子。 微博 多分类任务
4 NLPCC2014 Task1 2014 CCF 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博。 微博 多分类任务
5 NLPCC2014 Task2 2014 CCF 标注了正面和负面2种情感。 微博 2分类任务
6 BDCI2018-汽车行业用户观点主题及情感识别 2018 CCF 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 汽车 属性情感分析、主题情感分析
7 AI Challenger 细粒度用户评论情感分析 2018 美团 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 美团餐饮 属性情感分析
8 BDCI2019金融信息负面及主体判定 2019 中原银行 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 金融 实体情感分析

二、文本分类

三、文本匹配

四、文本摘要

五、机器翻译

六、NER

七、QA

八、知识图谱

九、语料库

十、阅读理解

十一、多模态

1.图片数据集

  • Image Net数据集:http://www.image-net.org

2.视频数据集

  • List item

Ⅱ. 其他内容

一、汉语拆字字典

  1. 英文可以做char embedding,中文可以试试拆字字典
  2. 或使用Bert预训练模型对汉语进行拆字。

二、中文数据集平台

  1. 搜狗实验室,提供了一些高质量的中文文本数据集,多为2012年以前的数据:传送门

  2. 中科大自然语言处理与信息检索共享平台:传送门

三、中文语料小数据

  1. 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据:传送门

  2. 维基百科数据集:传送门

  3. NLP工具
    (1)THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。
    (2)HanLP:https://github.com/hankcs/HanLP
    (3)哈工大:LTP https://github.com/HIT-SCIR/ltp
    (4)NLPIR:https://github.com/NLPIR-team/NLPIR
    (5)jieba:https://github.com/yanyiwu/cppjieba
    (6)百度千言数据集:https://github.com/luge-ai/luge-ai

Ⅲ. 一些有趣的工作

一、物体检测与分割

网址:https://github.com/matterport/Mask_RCNN

二、样式迁移

网址:https://github.com/zhanghang1989/MXNet-Gluon-Style-Transfer

三、文字生成图片

网址:https://openai.com/blog/dall-e/

参考文章:来自简书
参考视频:来自B站

NLP数据集整理(更新中)相关推荐

  1. linux的网络命令整理 更新中

    linux的网络命令整理 更新中 1.安装包: net-tools 主要命令: netstat , ifconfig , route , iptunnel iproute 主要命令: ss , ip ...

  2. 2022年最新互联网大厂前端面试题及答案-前端工程必备技能(持续整理更新中【关注收藏不迷路】)

    对于做前端的朋友,或者做了前端几年了,基础不好的,或者想进大厂的想了解深入,下面的知识点很多前端朋友都没有深入了解.很重要,看完有种茅塞顿开感觉,**关注+收藏哦,总有一天用的得.** 涉及到知识点: ...

  3. 绿鹅等大厂2020Android面试经验(持续整理更新中)

    1.Android 四大组件 Activity,Service,Content provider,broadcast receiver. 详情 2. Activity的4种启动方式 standard, ...

  4. 前端开发常用PhotoShop快捷键整理(更新中)

    图片来源 UI提供的psd图 印屏幕:PrScrn SysRq(键盘按键) 浏览器(插件)获取 常用的快捷键: 新建 Ctrl + N 取消选框 Ctrl + D 反选 Ctrl + shift + ...

  5. 实体对齐(Entity Alignment)相关论文与数据集整理

    实体对齐(Entity Alignment).知识图谱融合论文方法总结整理 传统的实体对齐方法主要通过属性相似度匹配的方式实现,利用有监督学习的机器学习模型,如:决策树.支持向量机.集成学习等.依赖实 ...

  6. 各类数据集整理(持续更新中ing)

    转自:https://zhuanlan.zhihu.com/p/84088095 最近一次新增:2020.02.11 大家好,先给各位抱拳了!我是和鲸(科赛 http://kesci.com)的运营一 ...

  7. 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

    [对话生成]常见对话生成数据集整理,含下载链接(持续更新) 前言 用于对话理解的对话数据集 IEMOCAP SEMAINE Mastodon MELD EMOTyDA MEmoR M3^33ED CP ...

  8. 常用公开人脸数据集汇总,持续更新中~~

    转载请注明作者和出处: http://blog.csdn.net/john_bh/ 文章目录 一. 人脸数据汇总表 1.人脸检测 2.人脸关键点检测 3.人脸表情 4.年龄与性别 5.人脸姿态 6.人 ...

  9. 【收集】NLP语料库数据集+持续更新

    来源:大数据文摘 本文共4270字,建议阅读7分钟. 本文为你奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表. 奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化 ...

最新文章

  1. 关于prefrenceactivity和preferencefragment的作用
  2. matlab 多项式表达,MATLAB自学笔记(十七):多项式及其函数
  3. Redis数据结构详解之Zset(五)
  4. 深度学习2.0-10.tensorflow的高阶操作之张量的限幅
  5. 21秋期末考试电子商务概论10250k2
  6. OPNsense19.1.9语言包更新文件
  7. VC++ IE缓存管理研究
  8. 解决CAD输出PDF字体周围有边框
  9. (转)Windows 批处理(bat)语法大全
  10. Ubuntu安装python步骤
  11. 微信公众号开发及h5分享兼容性问题总结
  12. IT行业岗位薪资大调查:收入最高的职位是什么?
  13. windows10自带我的文档等路径修改
  14. 使用tushare计算北上资金持仓成本
  15. IP 地址冲突检测程序源码(解决某种情况下检测无效的问题)
  16. Win7系统中,如何关闭Windows默认的防火墙? win7如何关闭防火墙
  17. 2021年企业十大科技趋势预测
  18. Self6D: Self-Supervised Monocular 6D Object Pose Estimation论文翻译
  19. mac使用迅雷下载资源
  20. 手动挡五个档位示意图_手动挡各个档位怎么使用 正确的操作方式大家要知道...

热门文章

  1. 图形验证码在携程的实践之路
  2. 解决网络ping内外网成功,但浏览器等应用程序连不上网(视个人情况而定)
  3. 【NOIP模拟赛】铁路运输
  4. Apollo-3.0本地编译
  5. Oracle数据文件scn不一致,控制文件与数据文件头SCN不一致导致数据库无法启动故障处理...
  6. SQL注入关键词大全
  7. 勾选框秘密(radio checkbox)
  8. Google Chrome浏览器数据文件地址修改
  9. 【跟着小甲鱼学C语言】P32 作用域和链接属性
  10. RTX 3080 Linux和Windows 平台兼容性问题