make_classification函数
make_classification函数
sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)
参数 | 类型 | 默认值 | 含义 |
---|---|---|---|
n_samples | int | 100 | 样本数量 |
n_features | int | 20 | 特征总数。这些包括n_informative 信息特征、n_redundant冗余特征、 n_repeated重复特征和 n_features-n_informative-n_redundant-n_repeated随机抽取的无用特征。 |
n_informative | int | 2 |
信息特征 的数量。
|
n_redundant | int | 2 |
冗余特征 的数量。这些特征是作为信息特征 的随机线性组合生成的。(假设n_informative=F1,F2,…那么n_redundant= aF1+bF2+… a,b,c就是随机数)
|
n_repeated | int | 0 |
从信息特征 和冗余特征 中随机抽取的重复特征 的数量。
|
n_classes | int | 2 | 分类问题的类(或标签)数。 |
n_clusters_per_class | int | 2 | 每个类的集群数。 |
random_state | int | None | 类似随机种子,复现随机数 |
返回值 | 输出值 | 含义 |
---|---|---|
X | ndarray(n_samples, n_features) | 生成的n+samples个样本 |
y | ndarray(n_samples) | 每个样本的类别成员的整数标签。 |
生成一个随机的 n n n 类分类问题。
在不打乱的情况下,X按以下顺序水平堆叠特征:主要n_informative特征,然后n_redundant 是信息特征的线性组合,然后是n_repeated 重复,随机抽取信息和冗余特征的替换。其余特征充满随机噪声。因此,无需改组,所有有用的特征都包含在列中 。X[:, :n_informative + n_redundant + n_repeated]
from sklearn.datasets import make_classificationX, y = make_classification(n_samples=6, n_classes=2, n_features=5, n_informative=5,n_redundant=0,n_clusters_per_class=1)
display(X,y)"""
n_samples=6 - 6行6个数据
n_classes=2 - 结果分为2类即二分类
n_features=5 - 5个特征
n_informative=5 - 5个全部有效的特征
n_redundant=0 - 冗余特征为0
n_clusters_per_class=1 - 每一个类别聚为一个簇array([[ 1.10885456, -1.97464085, 2.14372944, -0.08241471, -2.60173628],[ 0.98456921, -4.67257395, -0.10161149, 0.52329866, 2.0178222 ],[-2.92441307, -2.20249011, 0.12827954, 1.90711152, 0.24340137],[ 0.14524134, -1.42685331, 1.92731161, -0.72915701, 1.3529692 ],[-0.09694719, -0.28604481, -2.62609999, -0.46131174, 0.72515074],[ 0.25540393, -2.64589841, -2.05721611, 0.53203936, 0.34273113]])array([0, 1, 1, 0, 1, 0])
"""
参考:
sklearn.datasets.make_classification (scikit)
修改时间:
2022/1/29
make_classification函数相关推荐
- 独家 | 指南:不平衡分类的成本敏感决策树(附代码链接)
作者:Jason Brownlee 翻译:陈超 校对:冯羽 本文约3500字,建议阅读10+分钟 本文介绍了不平衡分类中的成本敏感决策树算法. 决策树算法对平衡分类是有效的,但在不平衡数据集上却表现不 ...
- 机器学习算法一览,应用建议与解决思路
机器学习算法一览,应用建议与解决思路 作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/5046933 ...
- 机器学习——KNN实现
一.KNN(K近邻)概述 KNN一种基于距离的计算的分类和回归的方法. 其主要过程为: 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等): 对上面所有的距离值进行排序( ...
- Python机器学习入门笔记(1)—— Scikit-learn与特征工程
目录 机器学习算法分类 数据集工具 Scikit-learn Scikit-learn的安装 scikit-learn数据集API介绍 bunch对象 datasets模块 数据集的划分 train_ ...
- python程序题求roc-auc是一种常用的模型评价指标_模型评价方法
第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲线 分别画图举例,要说出应用场景,例如什么情况用什么评价 ...
- 机器学习系列(4)_机器学习算法一览,应用建议与解决思路
作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出 ...
- 如何用Python计算特征重要性?
特征重要性评分是一种为输入特征评分的手段,其依据是输入特征在预测目标变量过程中的有用程度. 特征重要性有许多类型和来源,尽管有许多比较常见,比如说统计相关性得分,线性模型的部分系数,基于决策树的特征重 ...
- 感知器算法及python实现
这边建议异步到第二版感知器算法及其python 实现 V2.0,训练速度更快,数据集更直观. 第一版写的还是太过粗糙. 感知器算法及python实现 通俗来讲,感知器算法可以完成如下这类线性可分的二分 ...
- 机器学习scikit-learn入门
概述 样例数据集及模拟数据生成函数 分类 回归分析 聚类 模型评价与优化 数据预处理 人工智能(Artificial Intelligence,简称AI).机器学习(Machine Learning, ...
最新文章
- 搜索:广搜 词语阶梯
- python安装pandas模块-python安装numpy和pandas的方法步骤
- Kafka消息序列化和反序列化(下)
- 《需求设计:构建用户想要和需要的产品》——第1章 情境驱动设计入门1.1 对需求进行设计...
- c++ 读文件_第十六节:读文件,文件的创建,写文件,文件的读写以及鼠标键盘事件和图形绘制...
- laravel 异常捕获_Laravel框架捕获各种类型错误
- ironpython最新版本_Microsoft IronPython2.7.5 最新版
- 回应UE4 Unity将很快让开发者在虚拟现实里构建虚拟现实
- Linux查询端口的任务
- 用RT Server Customizer定制Windows 2008 R2安装光盘
- Attachments in Oracle Form
- 飞鱼星路由器如何限制外网访问服务器网站,飞鱼星路由器如何限制禁止指定IP上网...
- C语言中puts跟printf的区别
- 计算机专业男人喜欢什么样的女人,说实在的,其实男人真正喜欢的女人,就三个特征...
- 不用找了,这300家公司面试不考算法
- Hadoop HDFS常用命令
- 沙漠 草原 湖泊 羊群 骆驼(2)
- 在linux服务器上安装git
- eating的中文意思_eating是什么意思_eating的翻译_音标_读音_用法_例句_爱词霸在线词典...
- linux图片格式转换工具,在Linux系统上安装和使用Converseen批量图像转换器的方法...
热门文章
- ASP.NET程序设计 ——琴社网站
- 《中谷项目》--第一滴血
- 国仁网络资讯:抖音小店开通流程与保证金缴纳;小店禁品类目抖音哪些?
- 金丘区块链联盟链云平台海星链升级至3.0,以ECOChain(生态链)亮相2018广州黄埔区块链成果发布会...
- 炒股的第一步,找个券商开户
- sketch导出的html,Sketch导出
- csdn写博客,在MarkDown下复制IDE编辑器中的代码,导致csdn笔记排版变乱
- Win10权限管理与多用户远程登录(多方案)
- 得墨忒耳定律 (Law of Demeter,缩写LoD)
- qt android播放器代码,Qt on android 播放视频的实现