欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

作者:爱德宝器   Python爱好者社区专栏作者

公众号:数据管道

  摘要

"The world's most valuable resource is no longer oil,but data"

一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。

一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。

目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。

作为数据科学领域的从业者来说,对于数据的需求更为强烈。

本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。(从正文带蓝色下划线链接自取)。

  数据集

一、NBA球员数据集:

  • https://www.basketball-reference.com/players/l/linje01.html

  • http://china.nba.com/statistics

  • http://www.stat-nba.com

二、图像、文本、语言数据集

图像

1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。

http://horatio.cs.nyu.edu/mit/tiny/data/index.html

2、人脸识别数据集。

http://www.face-rec.org/databases/

3、一个可搜索的图像数据库。

http://www.image-net.org/index

语音:

1、CMU语音识别数据库。

http://www.speech.cs.cmu.edu/databases/

2、对音乐分析的数据集。

http://users.cis.fiu.edu/~lli003/Music/music.html

3、100万首歌曲的数据集

https://labrosa.ee.columbia.edu/millionsong/

文本:

1、用于构建机器学习推荐系统的1.5 TB数据集

https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1

三、金融和商业数据集:

1、ebay拍卖招标数据集。

http://www.modelingonlineauctions.com/datasets

2、纽约市警察局的交通事故数据(csv格式)。

http://nypd.openscrape.com/#/

3、从aiHit数据库中随机抽取的10,000家英国公司的信息

https://www.aihitdata.com/redirect/cons/datasets.html

4、美国股票新闻数据

http://dataju.cn/Dataju/web/datasetInstanceDetail/220

5、美国金融客户投诉数据

http://dataju.cn/Dataju/web/datasetInstanceDetail/229

6、Airbnb 开放的民宿信息和住客评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/360

四、政府出台的相关数据

1、健康、环境、能源等数据。

http://data.un.org/

2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行

http://inforumweb.umd.edu/econdata/econdata.html

3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引

http://usgovxml.com/

五、技术、社交网络、人文历史等数据集

1、80 Tb的存档web爬虫数据。

http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。

http://ww31.growmeme.com/overview

3、斯坦福大型网络数据集收集。

http://snap.stanford.edu/data/index.html

4、一个包含谷歌图书公司的数据集。

https://aws.amazon.com/cn/datasets/google-books-ngrams/

5、基因遗传数据集。

http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi

6、地球撞击陨石数据。

https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized

  机器学习数据集常用搜索网站

1、Kaggle

https://www.kaggle.com/competitions

2、加州大学欧文分校机器学习库。

http://archive.ics.uci.edu/ml/index.php

3、Google数据集搜索。

https://toolbox.google.com/datasetsearch

4、Datahub,分享高质量数据集平台

https://datahub.io/

5、用于上传和查找数据集的机器学习数据集存储库。

https://www.webdoctx.com/www.mldata.org

本文参考:

  • 《经济学人》报道。

  • https://datahub.io/。

  • Google数据集搜索。

  • Github数据集相关贡献。

  • http://mt.sohu.com/20180209/n530607148.shtml。

Python的爱好者社区历史文章大合集

2018年Python爱好者社区历史文章合集(作者篇)

2018年Python爱好者社区历史文章合集(类型篇)

关注后在公众号内回复“ 课程 ”即可获取:

小编的转行入职数据科学(数据分析挖掘/机器学习方向)【最新免费】

小编的Python的入门免费视频课程

小编的Python的快速上手matplotlib可视化库!

崔老师爬虫实战案例免费学习视频。

陈老师数据分析报告扩展制作免费学习视频。

玩转大数据分析!Spark2.X + Python精华实战课程免费学习视频。

各行业领域数据集整理送给大家!相关推荐

  1. 自动驾驶行业开源数据集调研

    自动驾驶行业开源数据集调研 2022除夕前整理,主要内容翻译自以下两个链接 资料1.链接:自动驾驶行业最受欢迎的10个开源数据集 1-10为按照字母排序的 资料2.链接:15 个最佳开源自动驾驶数据集 ...

  2. 【机器学习】机器学习公共数据集整理

    awesome public data sets github上边超过35k star的开源项目,其中包含了金融.医学.能源.时间序列等领域的公共数据集的集合. 链接:https://github.c ...

  3. 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

    [对话生成]常见对话生成数据集整理,含下载链接(持续更新) 前言 用于对话理解的对话数据集 IEMOCAP SEMAINE Mastodon MELD EMOTyDA MEmoR M3^33ED CP ...

  4. Dataset之CV:人工智能领域数据集集合(计算机视觉CV方向数据集)之常见的计算机视觉图像数据集大集合(包括表面缺陷检测数据集,持续更新)

    Dataset之CV:人工智能领域数据集集合(计算机视觉CV方向数据集)之常见的计算机视觉图像数据集大集合(包括表面缺陷检测数据集,持续更新) 目录 CV常用数据集平台集合 Mendeley Data ...

  5. 旋转机械故障诊断公开数据集整理

    旋转机械故障诊断公开数据集整理 众所周知,当下做机械故障诊断研究最基础的就是数据,再先进的方法也离不开数据的检验.笔者通过文献资料收集到如下几个比较常用的数据集并进行整理.鉴于目前尚未见比较全面的数据 ...

  6. 机器学习开源数据集整理

    先给两个网站,包含了各个领域绝大多数的数据集: https://www.datasetlist.com/ https://archive.ics.uci.edu/ml/datasets.php?for ...

  7. NLP数据集整理(更新中)

    Ⅰ. NLP数据集整理 中英文NLP数据集搜索平台,点击搜索 一.情感分析 ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注 1 weibo_senti_100k 无 无 带情感标注新浪微 ...

  8. CV 长尾数据集-CIFAR-10/100,EEG等生理信号数据集整理

    一.CV长尾数据集 three long-tailed visual recognition  benchmarks1 : Long-tailed CIFAR-10/-100, ImageNet-LT ...

  9. 常用数据集整理(持续更新ing)

    常用数据集整理(持续更新ing)     在做实验过程中经常用到的数据集整理一下,按照学习过程中遇到的数据集的先后顺序进行整理,希望能对科研有所帮助.本博文将随着学习过程持续性更新,有其他常用数据集的 ...

最新文章

  1. python 图片 转 pdf
  2. LSTM UEBA异常检测——deeplog里其实提到了,就是多分类LSTM算法,结合LSTM预测误差来检测异常参数...
  3. linux 跟踪程序执行过程,用pvtrace和Graphviz实现对linux下C程序的函数调用跟踪
  4. 使用SharePoint Online PowerShell cmdlet有哪些好处?
  5. teacher want middle point result rather all drafts
  6. Git初始化及仓库创建和操作
  7. 栈出现的异常和设置栈的大小-Xss
  8. 圆桌会议 HDU - 1214(规律+模拟队列)
  9. widget 工具 widget tools (add this , share this, jia this)
  10. hashmap put复杂度_你碰到过几种HashMap在高并发下出现的问题,哪些可能出现的问题...
  11. 马云再谈 996:真正的 996 与被剥削无关
  12. 一篇 JPA 总结
  13. 现在动手,建立你的灾备系统
  14. Shiro 常用标签
  15. ECTouch_v2.7.2-一款强大的商城系统源码附视频教程
  16. 【SDX12】高通SDX12 NatType功能分析及实现
  17. 买礼物(线段树+set维护)
  18. java qq开发_Ubuntu用户的福音:基于Java开发的开源QQ客户端iQQ
  19. 技术分享 | EdgeX应用落地——零售、能源行业创新业务
  20. 大数据是什么?大数据可以做什么?大数据实际做了什么?大数据要怎么做?

热门文章

  1. python的程序结构_python中的程序结构
  2. Scrapy 爬取盗墓笔记小说
  3. drawimage的用法 java_canvas drawImage() image video
  4. 主流浏览器的调试工具
  5. 微博用户标签自动生成算法
  6. cos三次方积分_求不定积分 ∫(cosx)的三次方dx。 要求:要有最详细的过程,不要简写...
  7. 自考和成考会有学计算机的吗,成人高考和自考有什么区别 成考录取后用去学校吗...
  8. CodePen 和JSFiddle
  9. Python | 阿尔法基本语法元素练习题
  10. 机房收费系统总结——心态篇