大数据:70多个网站让你免费获取大数据存储库
大数据:70多个网站让你免费获取大数据存储库
你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。
Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
Common crawl :建立并维护一个开放的网络,向所有人开放。
EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
Apache Mahout TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。
EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
Project Gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
Million song data set:与tracks 和艺术家有关的数据
AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
BigML big list of public data sources.
Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
Bitly 1.usa.gov data:匿名点击政府链接
Canada Open Data:有许多政府和地理空间的数据集的试点项目
Canada Open Data:许多政府和地理空间数据集的试点项目。
Causality Workbench:数据存储库
Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
Data Source Handbook:公开数据指南
Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据
Data.gov.uk:英国的公共可用数据(London datastore也是)
Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
Datamob:可以很好利用的公开数据
DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心
DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。
EconData:大量经济学的时间序列,由许多美国政府机构编制。
Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员
Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
Europeana Data:
FEDSTATS:一个美国统计资料的综合资源以及更多
FIMI repository for frequent itemset mining:工具和数据集
Financial Data Finder at OSU:大型财务数据集目录
GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”
GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。
GeoDa Center:地理和空间数据
Google ngrams datasets:来自数Google扫描的百万书籍文本
Grain Market Research:财务数据,包括股票、期货等
Hilary Mason research-quality Big Data sets收集许多文本和图片数据集
HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文
Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
Investor Links:包含财物数据
KDD Cup center:数据、工作表和结果
Kevin Chai list of datasets:文本、SNA和其他领域
KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
Linking Open Data 工程,免费向所有人提供数据
MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究
ML Data:欧盟Pascal2网络数据储存库
NASDAQ Data Store:提供市场数据
National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
Open Data Census:评估世界各地的开放数据的状态。
OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐
Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一个用来发现和可视化的数据资料的平台
Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据
Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据
SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
StatLib,卡内基梅隆大学数据档案
STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.
UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集
UCI Machine Learning Repository.
UCR Time Series Data Archive:提供数据集、论文、链接和代码
United States Census Bureau.
Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据
Wolfram Alpha disease and patient level dat.
Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛
Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究
199IT编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
大数据:70多个网站让你免费获取大数据存储库相关推荐
- 数据研究必备:国内40个免费数据源大放送!
一.政府类 1.国家数据(统计局) http://data.stats.gov.cn/ 如果你需要一应俱全的最新宏观经济数据,一个宝贵的来源是国家统计局提供的<进度统计数据>,网址是htt ...
- 如何将网站数据导入服务器里,网站是无意识的将数据导入和导出Web客户端
讨论一下,从长远来看,即使我们有URL,我们也会有一个web,在这个web中,很容易将数据放入沙箱中,但不可能将其取出. 网络作为一个开放的互操作平台改变了世界.它使我们能够通过一组开放的技术(如AP ...
- 如何关闭大疆gps_如何使用djisdkforwindows从mavic 2获取gps数据?
我使用windows sdk. 我正在尝试使用以下方法获取gps数据: var flightControllerHandler = _djiManagerInstance.ComponentManag ...
- 如何用R和API免费获取Web数据?
API是获得Web数据的重要途径之一.想不想了解如何用R调用API,提取和整理你需要的免费Web数据呢?本文一步步为你详尽展示操作流程. 权衡 俗话说"巧妇难为无米之炊".即便你已 ...
- (内附免费下载地址)全网免费获取地形数据的方法
首先,常见并且比较常用的免费DEM有90米.30米.250米.1.8千米等等. 图新地球提供的部分DEM下载 ETOPO.SRTM15.GMTED.SRTM3都可以通过图新地球来直接免费下载.(就是上 ...
- python分析股票数据_Python股票分析系列——系列介绍和获取股票数据.p1
本系列转载自youtuber sentdex博主的教程视频内容 https://www.youtube.com/watch?v=19yyasfGLhk&index=4&list=PLQ ...
- php更新用户数据为空,php – Instagram实时更新标签 – 获取空数据,为什么?
Heloo, 我正在开发一个项目,我需要从Instagram获得某些标签的实时更新. 这是我创建订阅的代码 $client_id = 'MOJID'; $client_secret = 'MOJIDS ...
- vue 后端数据成功返回 页面不渲染_vue能获取到数据数据却渲染不到页面上,为什么?...
问题描述 从后台可以拿到数据,并打印在控制台但是就是渲染不到页面,我也不知道是为什么,感觉都正常 问题出现的环境背景及自己尝试过哪些方法 尝试用let _this = this来代替this但是还是没 ...
- java中的数据解析是_Java从网络中请求获取JSon数据以及解析JSON数据----(自创,请注明)...
Json数据是比较常用的数据类型解析,优点就不多说啦.来看看方法: public static JSONObject getJsonObject(String url) { JSONObject js ...
最新文章
- Visual Studio 2008 到底有多强?漫画告诉你 !
- [Android]ListView中分割线的设置
- SQL基本语句及用法
- 开关设备对于数据中心正常运行时间很重要!
- c语言复制后无法运行,刚学C语言,在Linux下写的代码能正常编译,复制到VC下就无法运行...
- 责任链模式 和观察者模式
- angular directive自定义指令
- Effective Java学习笔记之第5条 避免创建不必要的对象
- linux服务与进程管理sup,linux下进程管理工具-supervisord
- vc++6.0获取磁盘基本信息_微信小程序——常用功能2:微信小程序用户登录,申请用户授权并获取用户基本信息...
- python能做什么工作-学python后能找什么工作?Python是什么?
- 快速提高网站排名软件
- 揭秘北京奥运会上的中国保镖[转贴]
- python爬取虾米音乐_【个人】爬虫实践,利用xpath方式爬取数据之爬取虾米音乐排行榜...
- android桌面 vulkan,Vulkan 设计指南
- vue-cli 3.x安装配置步骤详细说明文档
- 液晶面板价格继续下跌,32英寸平板电视或跌破500元
- 【Android】快速实现仿美团选择城市界面,微信通讯录界面
- 关于java.lang.ArithmeticException
- PaddlePaddle课程学习第一周笔记
热门文章
- andriod软键盘搜索
- android 仿音悦台页面交互效果
- ssh本机连接服务器失败
- 接上显示器查看万由NAS系统,提示Press root password or ctrl+D:
- 10分钟了解啥是数仓
- 用python演奏歌曲
- 中移(成都)产业研究院2020届校招面经+薪资待遇
- win10安装Visual Studio 2015(VS2015)提示0x80070643、0x8007066-错误
- 编写函数void fun(int *s, int t , int *k),该函数求数组中的最小值的下标并存放到指针k所指示的存储单元中
- 计算机硕士生还用考博吗,考博与考研的区别(以计算机考博为例)