random_state ---summary
1-简介
random_state 相当于随机数种子random.seed() 。random_state 与 random seed 作用是相同的。可参考:https://www.jianshu.com/p/4deb2cb2502f
对模型没有影响,但是对于一些进行随机选择的过程有影响。比如随机拆分训练集和测试集。随机种子一致的时候能保证每次结果的一致性
random_state--- 如果你在需要设置随机数种子的地方都设置好,那么当别人重新运行你的代码的时候就能得到完全一样的结果,复现和你一样的过程。
2-原理(转载自https://blog.csdn.net/Perfect_Accepted/article/details/81151952)
我们在使用sklearn的train_test_split函数随机划分数据集生成training set 于test set时,在函数train_test_split中有一个参数为random_state。
random_state:随机数种子——其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如每次都为1,其他参数一样的情况下你得到的随机数组是一样的。当为None时,产生的随机数组也会是随机的。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。
下面我们通俗的解释一下就是:
参数test_size:如果是浮点数,在0-1之间,表示test set的样本占比;如果是整数的话就表示test set样本数量。
test_size只是确定training set于test set的各自所占比例或者数量,并没有确定数据的划分规则。比如我们有数据集[1,2,3,4,5,6,7,8,9],我们确定test_size=3,那问题是我们应该取哪三个数作为test set呢,这时候就应该使用random_state来确定我们的划分规则,假设我们取random_state=1,它按一定的规则去取出我们的数据,当我们random_state=2时,它又换成另一种规则去取我们的数据,random_state的取值范围为0-2^32。当random_state=None时,可以理解为随机分配一个整数给random_state,这样就导致每次运行的结果都可能不同。
3-疑问
00-random_state=数值,内部是否封装了一个算法,算法是?
01-random_state的取值范围为为什么是0-2^32?
4-待做
查看random_state源码
转载于:https://www.cnblogs.com/xin-qing3/p/11188138.html
random_state ---summary相关推荐
- 机器学习概要(MACHINE LEARNING SUMMARY)
机器学习概要(MACHINE LEARNING SUMMARY) 监督学习 回归分析与线性回归 1.例如营业额预测,传统算法必须知道计算公式,机器学习可以帮你找到核心的函数关系式,利用它推算未来预测结 ...
- Machine Learning Summary
Machine Learning Summary General Idea No Free Lunch Theorem (no "best") CV for complex par ...
- tensorflow在训练和验证时监视不同的summary的操作
如果想在训练和验证时监视不同的summary,将train summary ops和val summary ops放进不同的集合中即可. train_writer = tf.summary.FileW ...
- LeetCode 228: Summary Ranges
Given a sorted integer array without duplicates, return the summary of its ranges. For example, give ...
- 【转】对random_state参数的理解
转自:https://blog.csdn.net/az9996/article/details/86616668 在学习机器学习的过程中,常常遇到random_state这个参数,下面来简单叙述一下它 ...
- R语言单变量分析实战:汇总统计(Summary Statistics)、频率表(Frequency Table)、图表(charts: boxplot、histogram、density)
R语言单变量分析实战:汇总统计(Summary Statistics).频率表(Frequency Table).图表(charts: boxplot.histogram.density) 目录
- R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型、分类预测器(分类变量)被自动替换为一组虚拟编码变量、summary函数查看检查模型、使用table函数计算混淆矩阵评估分类模型性能
R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型(Logistic regression).分类预测器(分类变量)被自动替换为一组虚拟编码变量.summary函数查看检查模型.使用t ...
- R语言manova函数进行多元方差分析(Multivariate analysis of variance 、MANOVA)、如果多变量检验结果有显著性,summary.aov函数锦欣单变量方差分析
R语言使用manova函数进行多元方差分析(Multivariate analysis of variance (MANOVA)).如果多变量检验结果具有显著性,使用summary.aov函数获得单变 ...
- R语言使用yardstick包的conf_mat函数计算多分类(Multiclass)模型的混淆矩阵、并使用summary函数基于混淆矩阵输出分类模型评估的其它详细指标(kappa、npv等13个)
R语言使用yardstick包的conf_mat函数计算多分类(Multiclass)模型的混淆矩阵(confusion matrix).并使用summary函数基于混淆矩阵输出分类模型评估的其它详细 ...
最新文章
- 百度云api android,帮助文档首页/百度移动统计API/百度移动统计 Android版SDK - 百度开放云平台...
- leetcode--删除链表的倒数第N个节点--python
- 为什么华为200万招聘AI博士,马斯克却推出脑机接口对抗AI?
- 天涯htmlcss基础框架
- 009_JMS中的事务
- Linux学习:shell命令(文件和目录相关)
- 会不会导致内存泄漏_可能会导致.NET内存泄露的8种行为
- mysql 递归_「MySQL」 - SQL Cheat Sheet - 未完成
- 如何用阿里云实行全链路数据追踪
- c语言创建一个根结点,创建一个由10个节点组成的二叉树结构,并按前根、中根、后根对该二叉树进行遍历,并输出遍历结果(c语言)...
- 【华为云技术分享】用人工智能技术推动西安民俗文化,斗鱼超管团队有一套
- (53)FPGA条件选择(casez)
- python如何定义自定义函数_python类中系统自定义函数
- HDU-基础搜索总结
- 柯尔莫哥洛夫微分方程
- Java垃圾回收的时间点
- 计算机中的查找快捷键,Excel搜索快捷键如何在excel中快速找到所需信息
- 哈夫曼树以及哈夫曼编码
- 获取电信光猫超级密码 获取宽带账号密码 获取公网ip
- Bilateral Filtering(双边滤波)