今天开始跑分布式机器学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是分布式机器学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好)。

1. CV数据集

(1)FEMINIST

任务:手写字符识别参数说明: 62种不同的字符类别 (10种数字, 26种小写, 26种大写)的像素图片, 图片全为28乘28像素大小 (可以选择将其转为128×128), 样本数805263。介绍: FEMNIST数据集全名Federated-MNIST, 属于专门给联邦学习用的基准数据集leaf的成员之一。官网:https://leaf.cmu.edu/引用方式:S Caldas, LEAF: A Benchmark for Federated Settings, 2018.获取方式:采用脚本获取

wget https://s3.amazonaws.com/nist-srd/SD19/by_class.zip
wget https://s3.amazonaws.com/nist-srd/SD19/by_write.zip

(2)EMINIST

任务:手写字符识别参数说明: 按照byclass方式split的话是62种不同的字符类别(各类别数量不均衡) (10种数字, 26种小写, 26种大写)的像素图片, 图片全为28乘28像素大小, 样本数814255。介绍: EMNIST数据集全名extension of MNIST,是MINIST数据集的扩展版。官网:https://www.nist.gov/itl/products-and-services/emnist-dataset引用方式:Cohen G, EMNIST: an extension of MNIST to handwritten letters, 2017获取方式:可以采用脚本获取

wget https://www.itl.nist.gov/iaui/vip/cs_links/EMNIST/gzip.zip

也可以直接从torchvision中开箱即用

from torchvision.datasets import EMNIST
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([ToTensor(),Normalize((0.1307,), (0.3081,))])
dataset = EMNIST(root=RAW_DATA_PATH,split="byclass",download=True,train=True,transform=transform)

(3)CIFAR10

任务:图像分类参数说明: 10种32x32的彩色图片(包括人、动物、花、昆虫等), 每种类别都有6000张图片. 50000张训练图片10000张测试图片.介绍: CIFAR-10 是所谓的8千万张微型图片数据集的有标签子集。官网:https://www.cs.toronto.edu/~kriz/cifar.html引用方式:Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.获取方式
直接从torchvision中开箱即用

from torchvision.datasets import CIFAR10
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([ToTensor(),Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR10(root=RAW_DATA_PATH,download=True,train=True,transform=transform)

(3)CIFAR100

任务:图像分类参数说明: 100种32x32的彩色图片(包括人、动物、花、昆虫等), 每种类别都有600张图片. 500张训练图片100张测试图片.介绍: CIFAR-10的兄弟,也是所谓的8千万张微型图片数据集的有标签子集。官网:https://www.cs.toronto.edu/~kriz/cifar.html引用方式:Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.获取方式
直接从torchvision中开箱即用

from torchvision.datasets import CIFAR100
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([ToTensor(),Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR100(root=RAW_DATA_PATH,download=True,train=True,transform=transform)

2. NLP数据集

(1)Shakespeare

任务:下一个字符预测参数说明:总共4,226,15条样本介绍: 和FEMNST一样,属于专门给联邦学习用的基准数据集leaf的成员之一。官网:https://leaf.cmu.edu/引用方式:LEAF: A Benchmark for Federated Settings获取方式
用脚本获取

wget http://www.gutenberg.org/files/100/old/1994-01-100.zip

3.普通回归/分类

(1)Synthetic

任务:二分类参数说明:用户能够自定义分布式节点数量, 类别数量以及维度

介绍: 这个数据集提供了一个生成人工的、但是有挑战性的联邦学习数据集方法, 我们要求的目标是分布式节点上的模型能够尽量有独立性。论文中详细地给出了数据集的生成过程。和FEMNST一样,属于专门给联邦学习用的基准数据集leaf的成员之一。官网:https://leaf.cmu.edu/引用方式:LEAF: A Benchmark for Federated Settings获取方式
需按照下列python代码对数据集进行人工生成

from scipy.special import softmax
NUM_DIM = 10
class SyntheticDataset:def __init__(self,num_classes=2,seed=931231,num_dim=NUM_DIM,prob_clusters=[0.5, 0.5]):np.random.seed(seed)self.num_classes = num_classesself.num_dim = num_dimself.num_clusters = len(prob_clusters)self.prob_clusters = prob_clustersself.side_info_dim = self.num_clustersself.Q = np.random.normal(loc=0.0, scale=1.0, size=(self.num_dim + 1, self.num_classes, self.side_info_dim))self.Sigma = np.zeros((self.num_dim, self.num_dim))for i in range(self.num_dim):self.Sigma[i, i] = (i + 1)**(-1.2)self.means = self._generate_clusters()def get_task(self, num_samples):cluster_idx = np.random.choice(range(self.num_clusters), size=None, replace=True, p=self.prob_clusters)new_task = self._generate_task(self.means[cluster_idx], cluster_idx, num_samples)return new_taskdef _generate_clusters(self):means = []for i in range(self.num_clusters):loc = np.random.normal(loc=0, scale=1., size=None)mu = np.random.normal(loc=loc, scale=1., size=self.side_info_dim)means.append(mu)return meansdef _generate_x(self, num_samples):B = np.random.normal(loc=0.0, scale=1.0, size=None)loc = np.random.normal(loc=B, scale=1.0, size=self.num_dim)samples = np.ones((num_samples, self.num_dim + 1))samples[:, 1:] = np.random.multivariate_normal(mean=loc, cov=self.Sigma, size=num_samples)return samplesdef _generate_y(self, x, cluster_mean):model_info = np.random.normal(loc=cluster_mean, scale=0.1, size=cluster_mean.shape)w = np.matmul(self.Q, model_info)num_samples = x.shape[0]prob = softmax(np.matmul(x, w) + np.random.normal(loc=0., scale=0.1, size=(num_samples, self.num_classes)), axis=1)y = np.argmax(prob, axis=1)return y, w, model_infodef _generate_task(self, cluster_mean, cluster_id, num_samples):x = self._generate_x(num_samples)y, w, model_info = self._generate_y(x, cluster_mean)# now that we have y, we can remove the bias coeffx = x[:, 1:]return {'x': x, 'y': y, 'w': w, 'model_info': model_info, 'cluster': cluster_id}

分布式机器学习常用数据集相关推荐

  1. 33个机器学习常用数据集

    若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks) 现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark, ...

  2. 机器学习cnn数据集_33个机器学习常用数据集CV/NLP

    若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks) 现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark, ...

  3. 机器学习常用数据集免费下载(囊括各类常见数据集近200个)

    <div class="htmledit_views" id="content_views"> 目前系统整理了一些网上开放的免费科研数据集,以下是分 ...

  4. mnist等常用数据集下载地址,现成的.mat文件

    推荐一个机器学习常用数据集下载网址,LIIBSVM 数据集已经处理好的,可以直接用.

  5. Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(综合性)--机器学习.深度学习算法中常用数据集大集合(建议收藏,持续更新) 目录 常规数据集 各大方向分类数据集汇总 具体数据集分类 相关文章 DL:关于深度学习常用数据集 ...

  6. 04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)

    机器学习概述 人工智能.机器学习.深度学习之间的关系 机器学习框架 Pytorch Caffe2 theano Chainer Scikit-learn 语言支持 机器学习书籍 <面向机器智能 ...

  7. 8种适用于不同机器学习问题的常用数据集

    要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情.越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究. 近期,亚马逊高级技术顾问 Will Ba ...

  8. Dataset:机器学习中常用数据集下载链接集合之详细攻略

    Dataset:机器学习中常用数据集下载链接集合之详细攻略 目录 机器学习中常用数据集下载链接集合之详细攻略 sklearn.datasets数据集所有csv文件集合 seaborn-data数据集所 ...

  9. 机器学习笔记:常用数据集之scikit-learn在线下载开源数据集

    目录 1. 前言 2. 来自真实世界的开源数据集 3. 函数接口 4. 使用代码示例 例1 kddcup99数据集 例2 20类新闻分类数据集 例3 带标签的人脸数据集 1. 前言 机器学习算法是以数 ...

最新文章

  1. 萨克斯维修服务器,萨克斯常见故障修理方法
  2. 利用python安装opencv_Linux下安装OpenCV+Python支持
  3. tensorflow笔记 :常用函数说明
  4. 数论概论(Joseph H.Silverman) 定理39.2 连分数相邻收敛项之差定理
  5. 产品经理打架引发的问题:如何识别需求及其价值
  6. xboxone硬盘坏的表现_【32期】硬盘损坏的根源居然是——它!
  7. 外设驱动库开发笔记5:AD7705系列ADC驱动
  8. oracle undo段的作用,Oracle数据库中Undo数据段的作用及类型
  9. ZEROC究竟是何方神圣? Leader-us 大神来的回答 Leader-us mycat的发起者
  10. git已经删除了远程分支,但本地环境仍能看到远程分支
  11. openssh-server (= 1:6.6p1-2ubuntu1) but it is not going to be installed
  12. [POI2009]石子游戏Kam
  13. Python3入门机器学习经典算法与应用 第3章 Numpy数组的合并与分割
  14. python中返回上一步操作的代码_pycharm最常用的快捷键总结
  15. 2021年王道数据结构课后题
  16. html怎么拼图没有缝隙,【答疑】ps怎么拼图不留缝隙?急需答案!! - 视频教程线上学...
  17. latex写加上标题不显示页眉页脚
  18. 大华linux密码,Linux用户和组的实战练习
  19. 接受投资人投入材料一批_接受投资者投入材料的会计分录
  20. lol德玛西亚登录服务器未响应,LOL客户端又出现问题?大量玩家无法登陆,解决方法已出现!...

热门文章

  1. MySQL集群搭建——主从同步(一主二从)
  2. Android使用闪光灯作为手电筒的简单实现
  3. 米4刷win10问题解答
  4. KNN 算法-理论篇-如何给电影进行分类
  5. linux一个路由表一个网关,网络基础:路由表、默认网关和掩码等
  6. //众神云集、群魔乱舞、以一抵百、砥砺前行//P1577 切绳子
  7. 在html中使用fontIcon 的图标
  8. [Java反序列化]—CommonsCollections7(CC完结篇)
  9. 1970年1月1日到现在的秒数计算日期
  10. 环信SDK 头像、昵称、表情自定义和群聊设置的实现 一(附源码)