UC Irvine Machine Learning Repository:UCI指的是加州大学欧文分校。UCI机器学习库主要是收集的机器学习领域的一些相关数据集和数据生成器,可以用来做一些基本的实验。存档是创建为大卫阿哈和加州大学欧文分校研究员在1987年研究生FTP文件。自那时以来,它已被广泛用于学生,教育工作者,和其他研究机器学习的研究者,作为一个数据来源。

UCI数据集 的说明 告诉了读者 数据的属性和类别,用户可以用自己的数据挖掘方法去将 uci数据集的分类,将结果与数据说明的结果对比。说明自己算法的正确性。

连接地址:http://archive.ics.uci.edu/ml/index.html。

===============================

在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,请立即停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:

http://www.cs.waikato.ac.nz/ml/weka/

很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。

如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。

关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE, Elsevier, Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:

http://www.cs.washington.edu/research/jair/home.html

http://www.jmlr.org/

====================================

关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\\MLRepository.htm

statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

转载于:https://www.cnblogs.com/Evil-Rebe/p/4951195.html

UCI机器学习数据库相关推荐

  1. UCI机器学习数据库使用说明

    UCI机器学习数据库的网址:      http://archive.ics.uci.edu/ml/ 数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章.写论文.测试算法的必备 ...

  2. 独家 | UCI机器学习数据库的Python API介绍

    作者:Tirthajyoti Sarkar 翻译:王雨桐 校对:丁楠雅 本文约2600字,建议阅读9分钟. 本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码. 本文将介绍如 ...

  3. UCI机器学习数据库的Python API介绍

    作者:Tirthajyoti Sarkar:翻译:王雨桐:校对:丁楠雅 本文约2600字,建议阅读9分钟. 本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码. 本文将介绍如 ...

  4. 发布AI操作系统、应用市场,开源机器学习数据库和AI操作系统内核,第四范式这波操作有点秀!

    "AI的发展经历了'高期望--能否落地--落地是否有用"等多次潮起潮落.今天,AI的价值再次引发一些讨论和怀疑." 第四范式创始人兼首席执行官戴文渊在近日举行的新品发布会 ...

  5. 开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征平台

    本文整理自 OpenMLDB PMC 卢冕 在 OpenMLDB Meetup No.6 中的分享--<开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征平台>. 非常感谢大家 ...

  6. 开源机器学习数据库OpenMLDB贡献者计划全面启动

    「无开源 不AI」 开源精神为人工智能在近十年的快速发展提供了重要的源动力,伴随着计算框架.算法等AI技术的相继开源,AI模型构建的门槛得以降低.但AI的产业化落地,需要针对数据处理.特征工程.模型构 ...

  7. UCI机器学习数据集库

    机器学习数据集库 https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection https://archive.ics.uci.edu/ml/ ...

  8. UCI机器学习数据集

    链接:http://archive.ics.uci.edu/ml/datasets.php 机器学习系列教程 从随机森林开始,一步步理解决策树.随机森林.ROC/AUC.数据集.交叉验证的概念和实践. ...

  9. UCI 机器学习数据集(分类)

    113 Data Sets UCI数据集 Name Data Types Default Task Attribute Types # Instances # Attributes Year   Ab ...

  10. 【收藏】机器学习数据库

    大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集[Stanford] http://cvgl.stanford.edu/projects/uav_data/ 人脸素描数据集[C ...

最新文章

  1. LSTM模型(基于Keras框架)预测特定城市或者区域的太阳光照量实战
  2. Yii:$app来源
  3. 离散事件模拟在游戏中的应用
  4. 阿克斯java表_java 入门第三季的6-5 作业, 希望大家指点
  5. flume+elasticsearch日志收集分析
  6. java 异常 日志_java中的异常、断言、日志(一)
  7. 服务端自动集成-山寨版
  8. 组织文化运营_组织可以从开放文化和技术中学到什么
  9. 最大公约数(Greatest Common Divisor)
  10. python所有的父类_python获取父类的子类(遍历,递归),并循环执行所有子类的某一方法...
  11. Java实现的日历(原创)
  12. Android Studio IDE Out of Memory
  13. vue 后台翻译_vue - 实战项目 - 在线翻译
  14. 解决虚拟机启动失败或进入应急模式的问题
  15. 随身WiFi刷debian固件
  16. 天津海洋功能区划获批复 排海污水须100%达标-天津海洋功能区划-污水-达标率
  17. 文档服务器备份策略,服务器备份策略
  18. 学习OpenCV:海森矩阵(Hessian Matrix)
  19. Linux文件管理系统
  20. [C++] std::tuple

热门文章

  1. java毕业设计开题报告javaweb户籍管理系统|户口
  2. 户籍化管理系统 c语言,社会单位消防安全“户籍化管理系统录入要点
  3. 关于计算机的英语介绍,计算机专业的英语自我介绍
  4. 地图经纬度转换(百度,高德,谷歌,Leaflet)
  5. Eastfax使用技巧
  6. 通达OA与触点通RTC的集成插件
  7. 网页悬浮按钮php,Javascript实现带关闭按钮的网页漂浮广告代码_javascript技巧
  8. UE编辑器格式化SQL
  9. MKV 高清视频文件分解与封装和音频编码的转换
  10. 计算机硬件常见的故障及维修方法,计算机硬件常见故障及解决方法