我的数据集具有超过100k的观测值和120个特征。我想将XGBoost和Dask Gridsearchcv一起使用来找到最佳参数。但是它引发了错误。请让我知道我在做什么错了

code:import dask_ml.model_selection as dcv

import dask.dataframe as dd

pipe1=Pipeline(steps=[('clf',XGBClassifier(objective= 'binary:logistic'))])

search_space=[{'clf__n_estimators': [100,150, 200, 300],

'clf__max_depth': [4,6,9],

'clf__learning_rate': [0.1, 0.01, 0.05],

'clf__random_state': [0],

'clf__subsample': [0.7,0.9,1],

'clf__colsamplebytree': [1.0, 0.9, 0.8]}]

grid_cpu=dcv.GridSearchCV(estimator=pipe1, param_grid=search_space, cv=5, scoring='roc_auc', return_train_score=True, n_jobs=-1,refit="AUC",scheduler='threads')

grid_cpu.fit(dd.from_pandas(X,npartitions=1), dd.from_pandas(y,npartitions=1))

print("Best parameters found: ",grid_mse.best_params_)

print("Best ROC found: ", np.sqrt(np.abs(grid_mse.best_score_)))

这里使用的X和y最初是一个pandas数据框。我试图在建模之前将其转换为dask数据框。我猜测那是我在那儿缺少的东西。

错误:AssertionError Traceback (most recent call last)

in

13 grid_cpu=dcv.GridSearchCV(estimator=pipe1, param_grid=search_space, cv=5, scoring='roc_auc', return_train_score=True, n_jobs=-1,

14 refit="AUC",scheduler='threads')

---> 15 grid_cpu.fit(dd.from_pandas(X,npartitions=1), dd.from_pandas(y,npartitions=1))

16 print("Best parameters found: ",grid_mse.best_params_)

17 print("Best ROC found: ", np.sqrt(np.abs(grid_mse.best_score_)))

~\AppData\Local\Continuum\anaconda3\lib\site-packages\dask_ml\model_selection\_search.py in fit(self, X, y, groups, **fit_params)

1231 error_score=error_score,

1232 return_train_score=self.return_train_score,

-> 1233 cache_cv=self.cache_cv,

1234 )

1235

~\AppData\Local\Continuum\anaconda3\lib\site-packages\dask_ml\model_selection\_search.py in build_cv_graph(estimator, cv, scorer, candidate_params, X, y, groups, fit_params, iid, error_score, return_train_score, cache_cv)

201

202 dsk = {}

--> 203 X_name, y_name, groups_name = to_keys(dsk, X, y, groups)

204 n_splits = compute_n_splits(cv, X, y, groups)

205

~\AppData\Local\Continuum\anaconda3\lib\site-packages\dask_ml\model_selection\utils.py in to_keys(dsk, *args)

85 yield x.key

86 else:

---> 87 assert not is_dask_collection(x)

88 key = "array-" + tokenize(x)

89 dsk[key] = x

AssertionError:

python xgboost建模过程_python - Dask中的XGBoost建模 - SO中文参考 - www.soinside.com相关推荐

  1. php中连接两个值,php - 如何从两个表的连接中选择一个值? - SO中文参考 - www.soinside.com...

    我想在LaravelMySQL中实现一些功能, 但似乎没有找到正确的解决方案. 我可以用子查询来实现我想要的东西, 但是我被告知他们没有联接那么高效. 而且,我将不得不把这个解决方案转换到Eloque ...

  2. idea php 断点设置,php - xdebug在IntelliJ Idea中跳过断点 - SO中文参考 - www.soinside.com...

    Issue 在执行PHP Web页面调试配置时,PHP会跳过Web应用程序中的-all-断点.没有任何内容记录到xdebug日志中.调试器输出"正在等待与ide键'XYZ'的传入连接&quo ...

  3. java 流拆分_java - 在Java流中拆分字符串? - SO中文参考 - www.soinside.com

    尝试一下:String fileName = "file.txt"; try { Map wordCount = Files.lines(Path.of(fileName)) .f ...

  4. oracle中怎么算奇数,oracle - 如何在oracle中获取奇数列 - SO中文参考 - www.soinside.com...

    这不能简单地完成,但是可以使用Oracle数据字典和一些动态SQL. 要找出奇数列,您需要查看ALL_TAB_COLUMNS视图.列COLUMN_ID对列1,2,3进行排序.因此,这将在SCOTT.E ...

  5. php中new与构造函数,php - 在构造函数中使用“ new”关键字 - SO中文参考 - www.soinside.com...

    这实际上是依赖项注入背后的理论. 并不是说使用" new"本身是一个坏主意.相反,通过实例化类内部的对象,您正在创建硬依赖性,如果不更改类本身就无法更改或切换出来. 它也违反了&q ...

  6. php数据保存txt文件怎么打开方式_php - 利用保存在TXT文件(PHP)中的数组数据 - SO中文参考 - www.soinside.com...

    我不确定您要在这里实现什么,但是您遇到的问题很少: 1)selectedColor 应为$ selectedColor 2)加载"数组". 您不能简单地加载文本并期望php猜测格式 ...

  7. php标签打印,html - 如何在php中创建打印标签? - SO中文参考 - www.soinside.com

    我使用HTML和CSS生成了一些标签,我打算将其打印到预先打印的标签纸上.标签应该有45mm * 35mm的固定宽度,我已经在CSS中设置,但是在打印时它们会以不同的尺寸出现. 我也尝试使用HTML转 ...

  8. java dispo lock_java - 在Java中同步请求响应 - SO中文参考 - www.soinside.com

    有两种方法可以做到这一点.首先,我将解释反应性和webflux的好方法.@GetMapping(value = "/anothertest") public Mono rest() ...

  9. matlab 水波模拟 代码,matlab - 在Matlab中模拟一艘在水波中航行的船 - SO中文参考 - www.soinside.com...

    我刚刚制作了一个由四边形组成的帆船的简单模型.这允许我们使用surf函数来绘制它.这应该只是一个起点,看看你如何做到这一点.但请记住,这可能不是最好的方法.正如已经提到的评论,MATLAB真的不是最好 ...

  10. java中receive功能_java - 在onReceive()回调中的synchronized块 - SO中文参考 - www.soinside.com...

    我正在阅读this page关于如何编程Android与USB配件通信.其中一个步骤涉及注册BroadcastReceiver以获得用户的许可: IntentFilter filter = new I ...

最新文章

  1. 如何解决android 通知栏不显示的问题
  2. python代码需要背吗-纠结应该先学Python还是Java?看完就有数了
  3. android通过webservice连接SQL数据库(一)服务器端
  4. Vue「二」—— vue 基本使用 、vue 指令 、vue 过滤器
  5. 全国计算机棋类竞赛,自主招生认可的12类主流竞赛详解
  6. html 点击子元素,html如何点击子元素事件而不触发父元素的点击事件——阻止冒泡...
  7. 训练史上最佳GAN用了512块TPU,一作自述:这不是算法进步,是算力进步
  8. 再也不学AJAX了!(一)AJAX概述
  9. 如何使用计算机文件共享,两台电脑如何共享文件?【步骤图解】
  10. c语言多文件编程,即main文件调用其他.c文件的方法
  11. mac下读取ntfs
  12. 象棋马走日UML类图
  13. python调整dicom窗宽窗位_【基础篇】kaggle || RSNA脑溢血金牌案例技术分享!如何使用dicom格式的数据的?...
  14. Final Cut Pro X 精选插件合集!
  15. 心形线方程-Geek献给女友的爱意情人节
  16. 使用ALLMAPS进行辅助组装得到准染色体水平基因组
  17. 关于matlab GUI重命名的问题。
  18. spring定时任务:@Scheduled
  19. 成都2019年大庙会“小喜神”新鲜出炉
  20. 如何删除.nfs00000xxxx文件

热门文章

  1. 2021-07-16思考-资本源于贪婪(与人性抗争)
  2. 悉尼大学COMP5216Assignment2课业解析
  3. java 刻度尺,刻度尺选择控件
  4. RPL协议的原理与安全机制
  5. wamp5工具安装介绍
  6. Weblogic配置jms服务文档,是自己总结网上搜集到的资料以及自己亲自动手配置测试的总结。
  7. 2020-10-05 Python编程从入门到实践 第16章 下载数据 动手试一试 16-2 比较锡特卡和死亡谷的气温 习题练习
  8. 去哪下载python项目_Python 项目实践二(下载数据)第三篇
  9. 论文笔记之:Co-saliency Detection via A Self-paced Multiple-instance Learning Framework
  10. 科学巨星的美丽轨迹——走近博弈论大师纳什