我用python编写了一个程序,使用机器学习算法对数据进行预测。我使用Scikit Learn的函数RandomForestClassifier创建一个随机林来进行预测。在

这个程序的目的是预测未知的天体物理源是脉冲星还是活动星系核;因此它根据已知的数据训练森林,它知道这些源是脉冲星还是活动星系核,然后对未知数据进行预测,但它不起作用。但很少有一个程序预测所有未知或不完全正确的脉冲星数据。在

下面我将介绍我的节目段落。在

它创建一个数据帧,其中包含所有源的数据:all_df

它由10列组成,9列用作预测因子,1列用作目标:predictors=all_df[['spec_index','variab_index','flux_density','unc_ene_flux100','sign_curve','h_ratio_12','h_ratio_23','h_ratio_34','h_ratio_45']]

targets=all_df['type']

type列包含每个源的标签“pulsar”或“agn”。在

在该程序中,预测值和目标值依次用于训练森林。在

该程序将预测值和目标分成两组,一组是train,占总数的70%,另一组是测试,使用Scikit Learn中的函数train_test_split:

^{pr2}$

这些集合中的数据是混合的,因此程序在不改变数据位置的情况下对这些集合的索引进行排序:pred_train=pred_train.reset_index(drop=True)

pred_test=pred_test.reset_index(drop=True)

tar_train=tar_train.reset_index(drop=True)

tar_test=tar_test.reset_index(drop=True)

之后,程序创建并训练随机森林:clf=RandomForestClassifier(n_estimators=1000,oob_score=True,max_features=None,max_depth=None,criterion='gini')#,random_state=1)

clf=clf.fit(pred_train,tar_train)

现在程序对测试集进行预测:predictions=clf.predict(pred_test)

在这一点上,这个程序似乎起作用了。在

现在它传递另一个数据帧,包含未知数据,到上面创建的林中,我得到了前面描述的坏结果。

你能帮助我吗?

这个问题可能是randomforestclassifier中的一个偏移,但是我在修改randomforestclassifier选项时没有任何有意义的结果。

如果你需要,我可以给你进一步的解释。

提前谢谢。在

再见,

法比奥

PS:我也尝试了交叉验证:我将训练集分成训练和测试,以相同的比例(0.7和0.3),在初始测试集上测试森林之前创建、训练和测试森林,修改randomforestclassifier选项以获得更好的结果,但我没有任何改进。在

python在范围内随机偏移_偏移随机森林分类器scikit学习相关推荐

  1. python只能使用内置数据库_隐藏彩蛋:你知道python有一个内置的数据库吗?

    本文转载自公众号"读芯术"(ID:AI_Discovery). 如果你是软件开发人员,相信你一定知道甚至曾经使用过一个非常轻量级的数据库--SQLite.它几乎拥有作为一个关系数据 ...

  2. python里面的内置函数_【python】函数之内置函数

    今天来介绍一下Python解释器包含的一系列的内置函数,下面表格按字母顺序列出了内置函数: 下面就一一介绍一下内置函数的用法: 1.abs() 返回一个数值的绝对值,可以是整数或浮点数等. print ...

  3. python 类的内置方法_【转】[python] 类常用的内置方法

    原文:http://xukaizijian.blog.163.com/blog/static/170433119201111894228877/ 内置方法 说明 __init__(self,...) ...

  4. python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...

    加权随机算法一般应用在以下场景:有一个集合S,里面比如有A,B,C,D这四项.这时我们想随机从中抽取一项,但是抽取的概率不同,比如我们希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10 ...

  5. 如何查看python有哪些内置函数_如何查看 Python 全部内置变量和内置函数?

    查看python内置函数的方法:1.打开Python IDLE编辑器:2.输入" dir(__builtins__)"命令,按下回车键(Enter)得到Python全部内置变量和函 ...

  6. python中 s是什么意思_什么是Pandas?Pandas学习什么?

    pandas数据分析核心工具包,基于numpy构建,为数据分析而存在!具有以下特点: 1.一位数组Series+二维数组Dataframe 2.可直接读取数据做处理 3.兼容各种数据库 4.支持各种分 ...

  7. 小甲鱼python的课后题好难_小甲鱼《零基础学习Python》课后笔记(二十六):字典——当索引不好用时2...

    测试题 0.Python的字典是否支持一键(Key)多值(Value)? 不支持.对相同的键赋值会覆盖原来的值.>>> dict2 = {1:'one',1:'two',3:'thr ...

  8. 微信红包随机数字_微信随机红包数详解和算法代码

    1 需求 写一个固定红包 + 随机红包 固定红包就是每个红包金额一样,有多少个就发多少个固定红包金额就行. 随机红包的需求是.比如红包总金额5元,需要发10个红包.随机范围是 0.01到0.99:5元 ...

  9. 随机森林随机回归预测_使用随机森林预测幸福

    随机森林随机回归预测 Why do we try to predict happiness? Being able to predict happiness means that we are abl ...

最新文章

  1. 【Step By Step】将Dotnet Core部署到Docker下
  2. jsessionid和jwt_JWT与Session的比较
  3. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink
  4. DateTime格式大全
  5. 微软计划2008年初发布Windows Server2008
  6. 【pmcaff】产品经理每日十问,问问自己,你做到了嘛
  7. 《团队作业第三、第四周》五小福团队作业--Scrum 冲刺阶段--Day6
  8. 单元测试工具 unitils
  9. yum -y install php-mysql 版本冲突
  10. iOS 相册图片选择器
  11. 使用python和Modbus协议控制YK-08继电器
  12. 获取手机屏幕的宽高 html,js获取手机屏幕宽度、高度
  13. H5调用手机摄像头和相册更换头像
  14. 60万餐厅数据为你画出全国美食地图(附技术讲解)
  15. 用linux安装包装ftp,Linux 安装vsftpd和ftp客户端
  16. dds:publish
  17. openfoam前处理:并行计算decomposeParDict和setFieldsDict
  18. SolidWorks如何编辑今日制造插件生成的齿轮
  19. SQL数据库常用语句大全
  20. StringBuilder 拼接去掉最后一个逗号

热门文章

  1. win10系统盘多大合适_Win10系统重装详细操作指南
  2. qdialog 返回值_PyQt5 中QDialog值传递
  3. 新媒体运营必备工具推荐,助力高效运营输出爆款
  4. JS Switch用法
  5. 客来乐:变革与升级,用技术点燃智慧时代
  6. 利用ffmpeg读取音乐文件的专辑信息(包括专辑封面图片)
  7. 整人专用——偷换应用图标
  8. python制作gif合成工具
  9. Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)
  10. C/C++小案例:汉语自动分词器