make_classification函数

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

参数 类型 默认值 含义
n_samples int 100 样本数量
n_features int 20 特征总数。这些包括n_informative 信息特征、n_redundant冗余特征、 n_repeated重复特征和 n_features-n_informative-n_redundant-n_repeated随机抽取的无用特征。
n_informative int 2 信息特征的数量。
n_redundant int 2 冗余特征的数量。这些特征是作为信息特征的随机线性组合生成的。(假设n_informative=F1,F2,…那么n_redundant= aF1+bF2+… a,b,c就是随机数)
n_repeated int 0 信息特征冗余特征中随机抽取的重复特征的数量。
n_classes int 2 分类问题的类(或标签)数。
n_clusters_per_class int 2 每个类的集群数。
random_state int None 类似随机种子,复现随机数
返回值 输出值 含义
X ndarray(n_samples, n_features) 生成的n+samples个样本
y ndarray(n_samples) 每个样本的类别成员的整数标签。

生成一个随机的 n n n 类分类问题。

在不打乱的情况下,X按以下顺序水平堆叠特征:主要n_informative特征,然后n_redundant 是信息特征的线性组合,然后是n_repeated 重复,随机抽取信息和冗余特征的替换。其余特征充满随机噪声。因此,无需改组,所有有用的特征都包含在列中 。X[:, :n_informative + n_redundant + n_repeated]

from sklearn.datasets import make_classificationX, y = make_classification(n_samples=6, n_classes=2, n_features=5, n_informative=5,n_redundant=0,n_clusters_per_class=1)
display(X,y)"""
n_samples=6 - 6行6个数据
n_classes=2 - 结果分为2类即二分类
n_features=5 - 5个特征
n_informative=5 - 5个全部有效的特征
n_redundant=0 - 冗余特征为0
n_clusters_per_class=1 - 每一个类别聚为一个簇array([[ 1.10885456, -1.97464085,  2.14372944, -0.08241471, -2.60173628],[ 0.98456921, -4.67257395, -0.10161149,  0.52329866,  2.0178222 ],[-2.92441307, -2.20249011,  0.12827954,  1.90711152,  0.24340137],[ 0.14524134, -1.42685331,  1.92731161, -0.72915701,  1.3529692 ],[-0.09694719, -0.28604481, -2.62609999, -0.46131174,  0.72515074],[ 0.25540393, -2.64589841, -2.05721611,  0.53203936,  0.34273113]])array([0, 1, 1, 0, 1, 0])
"""

参考:

sklearn.datasets.make_classification (scikit)

修改时间:
2022/1/29

make_classification函数相关推荐

  1. 独家 | 指南:不平衡分类的成本敏感决策树(附代码链接)

    作者:Jason Brownlee 翻译:陈超 校对:冯羽 本文约3500字,建议阅读10+分钟 本文介绍了不平衡分类中的成本敏感决策树算法. 决策树算法对平衡分类是有效的,但在不平衡数据集上却表现不 ...

  2. 机器学习算法一览,应用建议与解决思路

    机器学习算法一览,应用建议与解决思路 作者:寒小阳  时间:2016年1月.  出处:http://blog.csdn.net/han_xiaoyang/article/details/5046933 ...

  3. 机器学习——KNN实现

    一.KNN(K近邻)概述 KNN一种基于距离的计算的分类和回归的方法. 其主要过程为: 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等): 对上面所有的距离值进行排序( ...

  4. Python机器学习入门笔记(1)—— Scikit-learn与特征工程

    目录 机器学习算法分类 数据集工具 Scikit-learn Scikit-learn的安装 scikit-learn数据集API介绍 bunch对象 datasets模块 数据集的划分 train_ ...

  5. python程序题求roc-auc是一种常用的模型评价指标_模型评价方法

    第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲线 分别画图举例,要说出应用场景,例如什么情况用什么评价 ...

  6. 机器学习系列(4)_机器学习算法一览,应用建议与解决思路

    作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出 ...

  7. 如何用Python计算特征重要性?

    特征重要性评分是一种为输入特征评分的手段,其依据是输入特征在预测目标变量过程中的有用程度. 特征重要性有许多类型和来源,尽管有许多比较常见,比如说统计相关性得分,线性模型的部分系数,基于决策树的特征重 ...

  8. 感知器算法及python实现

    这边建议异步到第二版感知器算法及其python 实现 V2.0,训练速度更快,数据集更直观. 第一版写的还是太过粗糙. 感知器算法及python实现 通俗来讲,感知器算法可以完成如下这类线性可分的二分 ...

  9. 机器学习scikit-learn入门

    概述 样例数据集及模拟数据生成函数 分类 回归分析 聚类 模型评价与优化 数据预处理 人工智能(Artificial Intelligence,简称AI).机器学习(Machine Learning, ...

最新文章

  1. 搜索:广搜 词语阶梯
  2. python安装pandas模块-python安装numpy和pandas的方法步骤
  3. Kafka消息序列化和反序列化(下)
  4. 《需求设计:构建用户想要和需要的产品》——第1章 情境驱动设计入门1.1 对需求进行设计...
  5. c++ 读文件_第十六节:读文件,文件的创建,写文件,文件的读写以及鼠标键盘事件和图形绘制...
  6. laravel 异常捕获_Laravel框架捕获各种类型错误
  7. ironpython最新版本_Microsoft IronPython2.7.5 最新版
  8. 回应UE4 Unity将很快让开发者在虚拟现实里构建虚拟现实
  9. Linux查询端口的任务
  10. 用RT Server Customizer定制Windows 2008 R2安装光盘
  11. Attachments in Oracle Form
  12. 飞鱼星路由器如何限制外网访问服务器网站,飞鱼星路由器如何限制禁止指定IP上网...
  13. C语言中puts跟printf的区别
  14. 计算机专业男人喜欢什么样的女人,说实在的,其实男人真正喜欢的女人,就三个特征...
  15. 不用找了,这300家公司面试不考算法
  16. Hadoop HDFS常用命令
  17. 沙漠 草原 湖泊 羊群 骆驼(2)
  18. 在linux服务器上安装git
  19. eating的中文意思_eating是什么意思_eating的翻译_音标_读音_用法_例句_爱词霸在线词典...
  20. linux图片格式转换工具,在Linux系统上安装和使用Converseen批量图像转换器的方法...

热门文章

  1. ASP.NET程序设计 ——琴社网站
  2. 《中谷项目》--第一滴血
  3. 国仁网络资讯:抖音小店开通流程与保证金缴纳;小店禁品类目抖音哪些?
  4. 金丘区块链联盟链云平台海星链升级至3.0,以ECOChain(生态链)亮相2018广州黄埔区块链成果发布会...
  5. 炒股的第一步,找个券商开户
  6. sketch导出的html,Sketch导出
  7. csdn写博客,在MarkDown下复制IDE编辑器中的代码,导致csdn笔记排版变乱
  8. Win10权限管理与多用户远程登录(多方案)
  9. 得墨忒耳定律 (Law of Demeter,缩写LoD)
  10. qt android播放器代码,Qt on android 播放视频的实现