python在范围内随机偏移_偏移随机森林分类器scikit学习
我用python编写了一个程序,使用机器学习算法对数据进行预测。我使用Scikit Learn的函数RandomForestClassifier创建一个随机林来进行预测。在
这个程序的目的是预测未知的天体物理源是脉冲星还是活动星系核;因此它根据已知的数据训练森林,它知道这些源是脉冲星还是活动星系核,然后对未知数据进行预测,但它不起作用。但很少有一个程序预测所有未知或不完全正确的脉冲星数据。在
下面我将介绍我的节目段落。在
它创建一个数据帧,其中包含所有源的数据:all_df
它由10列组成,9列用作预测因子,1列用作目标:predictors=all_df[['spec_index','variab_index','flux_density','unc_ene_flux100','sign_curve','h_ratio_12','h_ratio_23','h_ratio_34','h_ratio_45']]
targets=all_df['type']
type列包含每个源的标签“pulsar”或“agn”。在
在该程序中,预测值和目标值依次用于训练森林。在
该程序将预测值和目标分成两组,一组是train,占总数的70%,另一组是测试,使用Scikit Learn中的函数train_test_split:
^{pr2}$
这些集合中的数据是混合的,因此程序在不改变数据位置的情况下对这些集合的索引进行排序:pred_train=pred_train.reset_index(drop=True)
pred_test=pred_test.reset_index(drop=True)
tar_train=tar_train.reset_index(drop=True)
tar_test=tar_test.reset_index(drop=True)
之后,程序创建并训练随机森林:clf=RandomForestClassifier(n_estimators=1000,oob_score=True,max_features=None,max_depth=None,criterion='gini')#,random_state=1)
clf=clf.fit(pred_train,tar_train)
现在程序对测试集进行预测:predictions=clf.predict(pred_test)
在这一点上,这个程序似乎起作用了。在
现在它传递另一个数据帧,包含未知数据,到上面创建的林中,我得到了前面描述的坏结果。
你能帮助我吗?
这个问题可能是randomforestclassifier中的一个偏移,但是我在修改randomforestclassifier选项时没有任何有意义的结果。
如果你需要,我可以给你进一步的解释。
提前谢谢。在
再见,
法比奥
PS:我也尝试了交叉验证:我将训练集分成训练和测试,以相同的比例(0.7和0.3),在初始测试集上测试森林之前创建、训练和测试森林,修改randomforestclassifier选项以获得更好的结果,但我没有任何改进。在
python在范围内随机偏移_偏移随机森林分类器scikit学习相关推荐
- python只能使用内置数据库_隐藏彩蛋:你知道python有一个内置的数据库吗?
本文转载自公众号"读芯术"(ID:AI_Discovery). 如果你是软件开发人员,相信你一定知道甚至曾经使用过一个非常轻量级的数据库--SQLite.它几乎拥有作为一个关系数据 ...
- python里面的内置函数_【python】函数之内置函数
今天来介绍一下Python解释器包含的一系列的内置函数,下面表格按字母顺序列出了内置函数: 下面就一一介绍一下内置函数的用法: 1.abs() 返回一个数值的绝对值,可以是整数或浮点数等. print ...
- python 类的内置方法_【转】[python] 类常用的内置方法
原文:http://xukaizijian.blog.163.com/blog/static/170433119201111894228877/ 内置方法 说明 __init__(self,...) ...
- python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...
加权随机算法一般应用在以下场景:有一个集合S,里面比如有A,B,C,D这四项.这时我们想随机从中抽取一项,但是抽取的概率不同,比如我们希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10 ...
- 如何查看python有哪些内置函数_如何查看 Python 全部内置变量和内置函数?
查看python内置函数的方法:1.打开Python IDLE编辑器:2.输入" dir(__builtins__)"命令,按下回车键(Enter)得到Python全部内置变量和函 ...
- python中 s是什么意思_什么是Pandas?Pandas学习什么?
pandas数据分析核心工具包,基于numpy构建,为数据分析而存在!具有以下特点: 1.一位数组Series+二维数组Dataframe 2.可直接读取数据做处理 3.兼容各种数据库 4.支持各种分 ...
- 小甲鱼python的课后题好难_小甲鱼《零基础学习Python》课后笔记(二十六):字典——当索引不好用时2...
测试题 0.Python的字典是否支持一键(Key)多值(Value)? 不支持.对相同的键赋值会覆盖原来的值.>>> dict2 = {1:'one',1:'two',3:'thr ...
- 微信红包随机数字_微信随机红包数详解和算法代码
1 需求 写一个固定红包 + 随机红包 固定红包就是每个红包金额一样,有多少个就发多少个固定红包金额就行. 随机红包的需求是.比如红包总金额5元,需要发10个红包.随机范围是 0.01到0.99:5元 ...
- 随机森林随机回归预测_使用随机森林预测幸福
随机森林随机回归预测 Why do we try to predict happiness? Being able to predict happiness means that we are abl ...
最新文章
- 【Step By Step】将Dotnet Core部署到Docker下
- jsessionid和jwt_JWT与Session的比较
- 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink
- DateTime格式大全
- 微软计划2008年初发布Windows Server2008
- 【pmcaff】产品经理每日十问,问问自己,你做到了嘛
- 《团队作业第三、第四周》五小福团队作业--Scrum 冲刺阶段--Day6
- 单元测试工具 unitils
- yum -y install php-mysql 版本冲突
- iOS 相册图片选择器
- 使用python和Modbus协议控制YK-08继电器
- 获取手机屏幕的宽高 html,js获取手机屏幕宽度、高度
- H5调用手机摄像头和相册更换头像
- 60万餐厅数据为你画出全国美食地图(附技术讲解)
- 用linux安装包装ftp,Linux 安装vsftpd和ftp客户端
- dds:publish
- openfoam前处理:并行计算decomposeParDict和setFieldsDict
- SolidWorks如何编辑今日制造插件生成的齿轮
- SQL数据库常用语句大全
- StringBuilder 拼接去掉最后一个逗号
热门文章
- win10系统盘多大合适_Win10系统重装详细操作指南
- qdialog 返回值_PyQt5 中QDialog值传递
- 新媒体运营必备工具推荐,助力高效运营输出爆款
- JS Switch用法
- 客来乐:变革与升级,用技术点燃智慧时代
- 利用ffmpeg读取音乐文件的专辑信息(包括专辑封面图片)
- 整人专用——偷换应用图标
- python制作gif合成工具
- Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)
- C/C++小案例:汉语自动分词器