机器学习-人工智能大数据,公开的海量数据集下载
数据集的网站:
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon从2008年开始就为开发者提供几十TB的开发数据。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
再就是说说几个跟互联网有关的数据集:
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。
3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
海量图像数据集:
1、ImageNet
http://www.image-net.org/
包含1400万的图像。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100万的图像集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1亿600万的图像
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100万的图像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2亿图像
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频
10、TRECVID
http://trecvid.nist.gov/
2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
数据挖掘数据集下载资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b
2、几个实用的测试数据集下载的网站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html
该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
7、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
9、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一个很好的据资源按应用领域划分的资源网址为:http://kdd.ics.uci.edu/
机器学习-人工智能大数据,公开的海量数据集下载相关推荐
- 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...
- 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...
- 独家 | 零售业中的惊涛骇浪——人工智能、机器学习和大数据
作者:Prannoiy Chandran 翻译:李润嘉 校对:丁楠雅 本文约5600字,建议阅读15分钟. 本文教你如何利用人工智能和机器学习来提高零售业的效率和顾客参与度. 时尚是一门富有魅力的生意 ...
- 推荐文章:机器学习:“一文读懂机器学习,大数据/自然语言处理/算法全有了...
PS:文章主要转载自CSDN大神"黑夜路人"的文章: http://blog.csdn.NET/heiyeshuwu/article/details/43483 ...
- 机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”
PS:文章主要转载自CSDN大神"黑夜路人"的文章: http://blog.csdn.net/heiyeshuwu/article/details/43483 ...
- golang 大数据平台_人工智能大数据平台中Golang的应用实践
原标题:人工智能大数据平台中Golang的应用实践 分享人: 薛磊,Momenta资深研发工程师,前Sun中国工程研究院工程师,专注于分布式系统.存储系统.容器等技术,目前从事深度学习训练平台的基础架 ...
- 一文读懂机器学习,大数据/自然语言处理/算法全有了…… (非常好)
http://www.open-open.com/lib/view/open1420615208000.html 阅读文件夹 1.一个故事说明什么是机器学习 2.机器学习的定义 4.机器学习的方法 5 ...
- 一文读懂机器学习,大数据/自然语言处理/算法全有了
转载至:http://www.cnblogs.com/subconscious/p/4107357.html 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能 ...
- [转载] 机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”
PS:文章主要转载自CSDN大神"黑夜路人"的文章: http://blog.csdn.net/heiyeshuwu/article/details/43483 ...
最新文章
- 深入理解:RabbitMQ的前世今生
- EasyUI--datebox设置默认时间
- oracle asm dd命令,ASM来用DD命令模拟数据块损坏
- [Android]你不知道的Android进程化--进程信息
- 重磅发布!最新版《动手学深度学习》PDF 版今天终于可以下载
- Java 线程的 5 种状态
- CVPR2015深度学习回顾
- lora技术在无线抄表行业应用
- javascript权威指南(2)
- Java中测试异常的多种方式
- ArrayList使用
- “猿式浪漫”:Java小白也能写出的表白程序
- cimage和gdi绘图效率比较_使用MFC CImage类和GDI+ Image加载并绘制PNG图片
- ZXECS-IBX1000综合业务交换
- OpenGL ES 理解纹理与纹理过滤
- Win 10系统截图的7种方式【简单实用】
- 用 C 语言来刷 LeetCode,网友直呼:那是真的牛批...
- 使用Java将中文转化为拼音
- DRM框架梳理-- dumb-buffer的分配和绑定到crtc
- 双十一过后,你的钱包还好嘛?快速回血攻略来了
热门文章
- 2018年单招考试计算机试题答案,2018年单招语文模拟试题及答案.doc
- Z:如何轻松做好网站外链的十大技巧
- 项目管理中的边边角角 之一
- 仙境传说服务器各文件夹,仙境传说RO游戏背景及快捷键等基础常识大全 指令大全 指令使用-游侠网...
- LeetCode 题解之 824. Goat Latin
- 【摄影基础】光圈的作用
- [转贴]改好DEBUG七处缺点的comexe实现报告
- luogu 1137
- 浙江大学计算机学院保研率,浙江大学2020届保研率25.9%,主要保研本校、复旦、交大、北大...
- 为什么两个向量垂直,点积为0