数据集(三)|人工智能领域100+数据集分享,赶紧收藏!
点击上方蓝字关注我们
学习数据分析需要持续进行实操,但很多读者找不到合适的数据集来练手,小编整理了人工智能领域100+数据集,总有一个是适合你练手的数据集!赶紧收藏点赞吧!
01
NLP语料库数据集
1.2016-2019新闻联播语料库(11.3MB)
https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5
2.中文谣言语料库(32.6MB)
https://www.heywhale.com/mw/dataset/5d257f87688d36002c579342
3.中国对联数据集(28.2MB)
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d
4.1998人民日报标注语料库(PFR)(10.2MB)
https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3
5.人民日报文章数据集(1979-2010)(811.9MB)
https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19
6.人民日报文章数据集(1949-1978)(559.4MB)
https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b
7.中文新闻数据集(70.3MB)
https://www.heywhale.com/mw/dataset/5d8878638499bc002c1148f7
8.耶鲁文本转SQL语句挑战数据集(95.1MB)
https://www.heywhale.com/mw/dataset/5d48f322c143cf002bf36319
9.新加坡国立大学SMS语料库(23.4MB)
https://www.heywhale.com/mw/dataset/5d3ea76acf76a600361e9aa0
10.中文经典典籍语料
https://www.heywhale.com/mw/dataset/5d11e717708b90002c4d2983
11.非正式汉语数据集(214.5MB)
https://www.heywhale.com/mw/dataset/5d1c45459f53a9002ce35b61
12.维基百科中文语料库(518.7MB)
https://www.heywhale.com/mw/dataset/5d1ee7939f53a9002ce5910e
13.频率最高的9933个最常用汉字数据集(1.0MB)
https://www.heywhale.com/mw/dataset/5d8dd076037db3002d3a715c
14.聊天语料库数据集(210.7MB)
https://www.heywhale.com/mw/dataset/5dee1459953ca8002c9678a6
15.短文本分类数据集(13.1MB)
https://www.heywhale.com/mw/dataset/5dd645fca0cb22002c94e65d/file
16.成语阅读理解数据集(195.8MB)
https://www.heywhale.com/mw/dataset/5ddf91e8ca27f8002c4ad48d
17.论文自动评分数据集(78.8MB)
https://www.heywhale.com/mw/dataset/5de0c5ccca27f8002c4b178a
18.翻译语料(595.9MB)
https://www.heywhale.com/mw/dataset/5de5fcafca27f8002c4ca993
19.中文科学文献摘要数据集(92.9MB)
https://www.heywhale.com/mw/dataset/5de72db2ca27f8002c4ce7b4
20.维基百科英文语料库(89.0MB)
https://www.heywhale.com/mw/dataset/5ddba2c9f41512002cebfef6
21.Lord of the Rings指环王数据(223.9KB)
https://www.heywhale.com/mw/dataset/5da83b27c83fb400420c5707
22.中文机器阅读理解的跨度提取数据集(CMRC 2018)
https://www.heywhale.com/mw/dataset/5e7b180798d4a8002d2d3af6
23.36氪新闻数据集(42.5MB)
https://www.heywhale.com/mw/dataset/5eb68e91366f4d002d77d08d
24.1万条亚马逊乐器的评测/评论(13MB)
https://www.heywhale.com/mw/dataset/5e980ce4ebb37f002c5feccc
25.1万条互联网专栏资讯数据集(75.7MB)
https://www.heywhale.com/mw/dataset/5ebba2de0bff1b002ce6d6a7
26.2万条中文金融新闻数据集(66.6MB)
https://www.heywhale.com/mw/dataset/5eb69242366f4d002d77d2b7
27.中文图书分类数据集(49.8MB)
https://www.heywhale.com/mw/dataset/5ecf5a25162df90036ddec65
28.英文歌词数据集(69.1MB)
https://www.heywhale.com/mw/dataset/5aab8085afaabd5e93e4e027
29.特朗普政府发表的声明和简报(63.6MB)
https://www.heywhale.com/mw/dataset/5fae515f7d1e6d0030d68088
02
问答类数据集
1.金融行业问答数据集(245.5MB)
https://www.heywhale.com/mw/dataset/5e9588f8e7ec38002d0331b1
2.社区问答数据集(1.7GB)
https://www.heywhale.com/mw/dataset/5de601f3ca27f8002c4cac47
3.中文医学问答数据集(85MB)
https://www.heywhale.com/mw/dataset/5d313070cf76a60036e4b023
4.CNN 新闻文章中的 12 万个问答对数据集(17.3MB)
https://www.heywhale.com/mw/dataset/5eef1408caa99b002d6e37cc
03
情感分析类数据集
1.斯坦福情绪树库:带有情感注释的标准情绪数据集(6.1MB)
https://www.heywhale.com/mw/dataset/5daa748c1035d8002c35cdee
2.关于美国的航空公司的推特的情绪分析数据集(2.6MB)
https://www.heywhale.com/mw/dataset/5dab23781035d8002c3634c9
3.中文对话情绪语料(1.1MB)
https://www.heywhale.com/mw/dataset/5d00c390e727f8002c4599ad
4.多域情感数据集(51.2MB)
https://www.heywhale.com/mw/dataset/5de5ce0aca27f8002c4c9ee8
5.sentiment140 情感分析数据集(72.6KB)
https://www.heywhale.com/mw/dataset/5ca46f1a8408c1002b498cca
04
爬虫类数据集
1.6000条周杰伦微博超话数据!(1.1MB)
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa
2.《中餐厅3》19W弹幕数据(12.8MB)
https://www.heywhale.com/mw/dataset/5d7b69798499bc002c0d3ec5
3.bilibili流行动漫影评数据(2.3MB)
https://www.heywhale.com/mw/dataset/5d3a76dfcf76a600360e19c9
4.淘宝某店铺电风扇评论(273.9KB)
https://www.heywhale.com/mw/dataset/5d442caec143cf002bdb687c
5.7K条马蜂窝国内热门景点游记(140+MB)
https://www.heywhale.com/mw/dataset/5e7c55db98d4a8002d2db5a2
6.IMDB电影评论数据(32.0MB)
https://www.heywhale.com/mw/dataset/5d143d41708b90002c5f7021
7.未名BBS热门话题(3.6MB)
https://www.heywhale.com/mw/dataset/5dad84b375df5c002b20d79f
8.咪蒙所有公众号文章(3.9MB)
https://www.heywhale.com/mw/dataset/5c8723441e7104002b3831d3
9.6000条周杰伦微博超话数据(1.1MB)
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa
10.麦当劳就餐负面评论数据集(891.1KB)
https://www.heywhale.com/mw/dataset/5dab2c0b1035d8002c36372b
05
实体识别类数据集
1.用于命名实体识别的带注释语料库(26.4MB)
https://www.heywhale.com/mw/dataset/5de9be34953ca8002c95c35f
2.使用LatticeLSTM的中文NER数据(191.5KB)
https://www.heywhale.com/mw/dataset/5d564ea0c143cf002b235181
3.医疗命名实体识别数据集(5.1MB)
https://www.heywhale.com/mw/dataset/5dedef59953ca8002c96667a
4.中文实体关系抽取数据集(8.1MB)
https://www.heywhale.com/mw/dataset/5dde487dca27f8002c4a8352
5.金融信息负面及主体判定比赛数据集(17MB)
https://www.heywhale.com/mw/dataset/5e09a9eb2823a10036b126c0
06
CV类数据集
1.Pronto共享单车数据集(70.8MB)
https://www.heywhale.com/mw/dataset/58a515c48460306efcce2e96
1.Fashion-MNIST图像数据集(200.4MB)
https://www.heywhale.com/mw/dataset/5a0cfcf860680b295c28a753
2.CIFAR100数据集(161.3MB)
https://www.heywhale.com/mw/dataset/5e96da12e7ec38002d03bf51
3.车辆数据集(车辆识别与分类)(62.5MB)
https://www.heywhale.com/mw/dataset/5bc316173631bc00109d2abf
4.垃圾分类数据集
https://www.heywhale.com/mw/dataset/5d133d11708b90002c570588
5.另一个垃圾分类数据集(40.9MB)
https://www.heywhale.com/mw/dataset/5d1578e4708b90002c6a3238
6.CIFAR10数据集(148MB)
https://www.heywhale.com/mw/dataset/5ab3403bfdf6b86c23f259e3
7.GTSRB-德国交通标志识别图像数据(253.3MB)
https://www.heywhale.com/mw/dataset/5d8db5ca037db3002d3a5ba0
8.手势识别数据库(1.1GB)
https://www.heywhale.com/mw/dataset/5d8da999037db3002d3a523
9.情绪的面部表情(170MB+)
https://www.heywhale.com/mw/dataset/5d773bd68499bc002c0c4a6f
10.枪支目标检测(2.4MB)
https://www.heywhale.com/mw/dataset/5d576984c143cf002b238528
11.人脸图像数据(294.1MB)
https://www.heywhale.com/mw/dataset/5da6d4cac83fb4004206edf0
12.RMFD口罩遮挡人脸数据集(610.3MB)
https://www.heywhale.com/mw/dataset/5e81a24b246a590036b884d5
13.中国交警手势数据集(1.8GB)
https://www.heywhale.com/mw/dataset/5de75df5ca27f8002c4cf1bb
14.场景分类数据集(105.9MB)
https://www.heywhale.com/mw/dataset/5ddb4adef41512002cebc776
15.87种宝石图片数据(50.9MB)
https://www.heywhale.com/mw/dataset/5ddccb4aca27f8002c4a26db
16.验证码数据集(13.5MB)
https://www.heywhale.com/mw/dataset/5e143ef32823a10036b34846/file
17.硬币图像数据集(326.7MB)
https://www.heywhale.com/mw/dataset/5e7c7b3e98d4a8002d2dd15c
18.LabelMe图像语义分割数据集(102.6MB)
https://www.heywhale.com/mw/dataset/5e7b770698d4a8002d2d7925
19.车牌识别数据集(62.8MB)
https://www.heywhale.com/mw/dataset/5e96cf8fe7ec38002d03b8ed
20.Biwi头姿势数据库(449.7MB)
https://www.heywhale.com/mw/dataset/5ea16e79105d91002d4f4a25
动物
21.Butterfly-200细粒度图像分类数据集(828MB)
https://www.heywhale.com/mw/dataset/5e85d97095b029002ca7e904
22.宠物图像数据集(783.5MB)
https://www.heywhale.com/mw/dataset/5d76060b8499bc002c0bdd66
23.狗狗种类图像数据集(919.5MB)
https://www.heywhale.com/mw/dataset/5def46de2823a10036aab2f5
24.黑猩猩图片数据集(604.4MB)
https://www.heywhale.com/mw/dataset/5e7b62da98d4a8002d2d6deb
植物:
25.水稻叶子疾病图片集(36.7MB)
https://www.heywhale.com/mw/dataset/5d522069c143cf002b21edbb
26.植物幼苗图片数据集
https://www.heywhale.com/mw/dataset/5d4cd153c143cf002b0a8d4f
27.花卉识别数据集(224.9MB)
https://www.heywhale.com/mw/dataset/5cc127b98c90d7002c8375d7
28.花卉图像分类
https://www.heywhale.com/mw/dataset/5d3320afcf76a60036ec5fd1
29.可食用野外植物数据集
https://www.heywhale.com/mw/dataset/5d4a5e88c143cf002bfbf5d0
30.叶片计数图像数据集(882.3MB)
https://www.heywhale.com/mw/dataset/5e841900246a590036b954bd
气象:
31.飓风损害的卫星图像数据集(63MB)
https://www.heywhale.com/mw/dataset/5da6e8a6c83fb40042073e4f
32.从卫星图像理解云层数据集(42MB)
https://www.heywhale.com/mw/dataset/5dafcd9275df5c002b2189c6
字符识别:
33.TibetanMNIST藏文手写数字数据集(53.2MB)
https://www.heywhale.com/mw/dataset/5bfe734a954d6e0010683839
34.MNIST手写识别数据集(9.5MB)
https://www.heywhale.com/mw/dataset/58a7c84c803d1a0d2e26441a
35.Chars74K字符识别数据集(188.3MB)
https://www.heywhale.com/mw/dataset/5d89c020e3ffb2002c44fb0a
36.信用卡卡面图像及标注数据(42.9MB)
https://www.heywhale.com/mw/dataset/5954cf1372ead054a5e25870
37.手写数学表达式识别(29MB)
https://www.heywhale.com/mw/dataset/5daff66f75df5c002b219fb0
38.图片与单词匹配数据集(31.1MB)
https://www.heywhale.com/mw/dataset/5dab27631035d8002c3635eb
39.密集不规则文本行数据集(353MB)
https://www.heywhale.com/mw/dataset/5da95febc83fb400420f3631
40.视觉文字识别数据集
https://www.heywhale.com/mw/dataset/5df058762823a10036aae665
41.HASY手写符号图片数据集(127.2MB)
https://www.heywhale.com/mw/dataset/5dee0b25953ca8002c9671ea
42.麻将图片数据集(7.5MB)
https://www.heywhale.com/mw/dataset/5de76474ca27f8002c4cf44c
医疗:
43.犬球虫病寄生虫图片集(18.1MB)
https://www.heywhale.com/mw/dataset/5d4cd9c7c143cf002b0abead
44.头部CT图像数据(24.4MB)
https://www.heywhale.com/mw/dataset/5d7213eb8499bc002c0af1e8
45.肺部CT图像数据(529.0MB)
https://www.heywhale.com/mw/dataset/5d71de448499bc002c0ae1fc
46.心血管疾病预测(2.7MB)
https://www.heywhale.com/mw/dataset/5db00b9175df5c002b21af83/file
47.深圳医院胸片检查掩膜图片数据集(19.8MB)
https://www.heywhale.com/mw/dataset/5daff18575df5c002b219c89
48.肺部CT图像数据(529MB)
https://www.heywhale.com/mw/dataset/5d71de448499bc002c0ae1fc
49.结核病图像数据集(456.8MB)
https://www.heywhale.com/mw/dataset/5efc4de063975d002c9792de
行人识别:
50.行人检测数据集ETHZ(146MB)
https://www.heywhale.com/mw/dataset/5db2680f75df5c002b23b755
51.行人重识别数据集Market-1501(145.7MB)
https://www.heywhale.com/mw/dataset/5db148b375df5c002b2295dd
52.行人重识别数据集RAiD(140.1MB)
https://www.heywhale.com/mw/dataset/5db11bf775df5c002b226914
53.行人重识别数据集prid_2011(1015.3MB)
https://www.heywhale.com/mw/dataset/5db10d1a75df5c002b2259dd
54.汽车后视摄像头视角行人数据集(799.7MB)
https://www.heywhale.com/mw/dataset/5dafc75175df5c002b2186a0
07
语音类数据集
1.Mozilla语音数据集-中文(358.2MB)
https://www.heywhale.com/mw/dataset/5d6f91678499bc002c0a722b
2.2000个英语读数字的录音(8.9MB)
https://www.heywhale.com/mw/dataset/5ddde933ca27f8002c4a6013
如果您觉得我们的文章还不错,请分享,点赞,再看,一键三连!!!
END
数据分析求职面试相关资讯持续分享,尽请关注数据万花筒和数据百晓生
加入数据万花筒的知识星球,每日分享数据分析笔试面试题
5个理论模型构建用户流失外部因素分析框架
2021-03-29
同期群分析解读用户生命周期,剖析真实用户行为和价值
2021-03-22
数据分析方法论|利用对比分析有效地说明数据结果和结论
2021-03-15
平均值真的是最优解吗?何不试试用数据分箱进行结构化分析
2021-03-09
http://www.taodudu.cc/news/show-1969682.html
相关文章:
- 笔记工具
- 国内完全免费的电子书籍下载
- item_review - 获得淘宝商品评论
- 电子书,电子图书馆网址大全
- 我的电子书历程
- 最全书籍网站合集
- 免费ebook 好东东!一起分享
- 推荐几个e书下载地址
- Download ebook from Syngress Publishing
- 第一次见到的车
- 大量的免费电子书下载地址
- 鸽姆智库书籍
- 抓取csdn上的各类别的文章 (制作csdn app 二)
- EBook的网站
- 52ebook
- 国内完全免费的电子图书下载网址
- 【AlphaGo论文学习】Mastering the game of Go without human knowledge翻译及心得
- 强化学习(RL)AlphaGo Zero训练五子棋
- 从零开始实现 AlphaGo(一)
- AlphaGo Zero代码迟迟不开源,TF等不及自己推了一个
- 【进阶版】 机器学习之强化学习、蒙特卡罗、AlphaGo原理浅析(22)
- 腾讯开源围棋AI程序PhoenixGo,复现AlphaGo Zero
- 增强学习 | AlphaGo背后的秘密
- 用 AlphaGo Zero 参加阿里巴巴全球调度算法大赛
- 玩转你的AlphaGo(MAC OS)
- 实现应用于AlphaGo得增强式学习算法,代码实现1
- AlphaGo Zero 设计思路及应用实践(上)
- 【历史上的今天】3 月 9 日:AlphaGo 成名之战;Mac 电脑设计者诞生;谷歌收购 Writely
- AlphaGo Zero:从头开始学习
- AlphaGo的深度学习系统Tensorflow详细安装入门
数据集(三)|人工智能领域100+数据集分享,赶紧收藏!相关推荐
- 【各个领域公开数据集查找和下载】【定期更新】
各个领域公开数据集查找和下载 写在前面的话 网站 博客 领域 金融 交通 商业 推荐系统 医疗健康 图像数据 综合图像 场景图像 Web标签图像 人形轮廓图像 视觉文字识别图像 特定一类事物图像 材质 ...
- Dataset之CV:人工智能领域数据集集合(计算机视觉CV方向数据集)之常见的计算机视觉图像数据集大集合(包括表面缺陷检测数据集,持续更新)
Dataset之CV:人工智能领域数据集集合(计算机视觉CV方向数据集)之常见的计算机视觉图像数据集大集合(包括表面缺陷检测数据集,持续更新) 目录 CV常用数据集平台集合 Mendeley Data ...
- 百万年薪背后 是人工智能领域泛起的人才泡沫 2017年07月04日 06:30 PingWest 微博 微信 空间 分享 添加喜爱 //d1.sina.com.cn/201706/26/14587
百万年薪背后 是人工智能领域泛起的人才泡沫 2017年07月04日 06:30 PingWest 微博微信空间分享添加喜爱 (原标题:百万年薪背后 是人工智能领域不断泛起的人才泡沫) 应采访者要求,戴 ...
- 这里有众多领域的数据集,然后还有一百万奖金等你来战!
刚刚学习了一堆算法模型无处施展? 不知道自己的水平和业内真实场景差别多大? 找不到高质量数据集? 想创业,又不知道哪个大数据AI方向最适合你? 这场D·IF创业赛完美解决这些痛点! 报名参赛你将获得: ...
- 网络流量领域公开数据集及工具库
本博客持续更新,收集平常读论文时提高的公开数据集和工具库. 工具库 流量解析 个人喜欢用flowconainer库,使用python解析原始pcap流量,直接pip 按照即可. 使用文档见gitHub ...
- 赶紧收藏起这50个最佳机器学习公共数据集
外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...
- 500款各领域机器学习数据集,总有一个是你要找的
目录: 金融 交通 商业 推荐系统 医疗健康 图像数据 视频数据 音频数据 自然语言处理 社会数据 科研和竞赛数据 金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/ ...
- 数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
铜灵 发自 凹非寺 量子位 出品| 公众号 QbitAI 想自己构建机器学习模型,没想到首先就卡在了第一步. 网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼.想要获取大型数据集,还要挨个跑到 ...
- 各领域公开数据集下载 | 资源
金融 交通 商业 推荐系统 医疗健康 图像数据 视频数据 音频数据 自然语言处理 社会数据 处理后的科研和竞赛数据 1 金融 **美国劳工部统计局官方发布数据:**http://dataju.cn/D ...
- 交通领域开源数据集详细汇总
一.交通领域开源数据集 1. NGSIM数据集 NGSIM 的全称为 Next Generation Simulation,是由美国联邦公路局发起的一项数据采集项目,被交通界学者广泛用于车辆跟驰换道等 ...
最新文章
- 第1天 XML和DTD、schema约束
- hibernate教程--检索方式(hql,sql,QBC)
- poj 3090 Visible Lattice Points(离线打表)
- 一步快速将Smartform output转成生成PDF文件
- LeetCode 851. 喧闹和富有(拓扑排序)
- C#开发笔记之21-C#解析Json(序列化/反序列化)的最佳实践。
- 用计算机语言拜年,鸡年大吉!22种编程语言大拜年
- yaf写入把数据库信息写入redis,再取出来传到页面上显示 2016-10-22
- Springboot——quartz简单配置和使用
- java调用webservice的.asmx接口
- unity的下载与安装
- C#——NPOI对Excel的操作、导入导出时异常处理(二)
- macbook删除全部蓝牙设备列表
- JAVA测试人员考核_自动化测试的绩效考核
- 打地鼠小游戏(Laya.box)
- 神经网络 深度神经网络,深度神经网络知识图谱
- BGP/MPLS VS VPLS
- linux 第七天 linuxprobe
- 解决pgAdmin4安装后,启动失败的问题
- ct报告会出错吗_病人在医院做了CT,报告错误,医生也没看出骨破坏的情况,请问这是误诊吗?...
热门文章
- iOS UIFont 字体名称大全,图解及使用方法
- html实现登录界面
- matlab yalmip cplex,关于 cplex+matlab+yalmip问题
- json转java对象_java对象与json对象间的相互转换的方法
- android确定kernel使用的config文件
- 小甲鱼c语言课后作业作业百度云,小甲鱼c语言视频教程
- 一文了解参数检验和非参数检验
- 北京交通大学离散数学 谓词逻辑_【精选】离散数学习题解答-第3章谓词逻辑.pdf...
- 直播app开发怎么做,PHP直播源码是什么
- 单片机编程用什么软件?单片机开发软件有哪些?