ExploreKit 是一个开源自动特征提取工具,其github地址为 https://github.com/giladkatz/ExploreKit
使用方法:

  1. 先下载源码
git clone https://github.com/giladkatz/ExploreKit
  1. 下载并安装Inteli-idea
    https://download.jetbrains.8686c.com/idea/ideaIC-2019.2.tar.gz
    下载后解压,打开bin/idea.sh即可。
  2. 在inteli-idea导入explorekit项目,选择pom.xml文件即可。

修改/home/dk/Desktop/ExploreKit-master/src/main/java/explorekit/Program.java 里面的数据集的路径,改成自己的数据集名称。
例如,我在https://www.openml.org/d/37 下载diabete的数据集,并放在了/home/dk/dataset/目录下。
那么Program.java那些数据集的路径改成如下:

       HashMap<String, Integer> classAttributeIndices = new HashMap<>();//datasets.add("/global/home/users/giladk/Datasets/heart.arff");//datasets.add("/global/home/users/giladk/Datasets/cancer.arff");//datasets.add("/global/home/users/giladk/Datasets/contraceptive.arff");//datasets.add("/global/home/users/giladk/Datasets/credit.arff");//datasets.add("/global/home/users/giladk/Datasets/credit-g.arff");datasets.add("/home/dk/dataset/diabetes.arff");//datasets.add("/global/home/users/giladk/Datasets/Diabetic_Retinopathy_Debrecen.arff");//datasets.add("/global/home/users/giladk/Datasets/horse-colic.arff");//datasets.add("/global/home/users/giladk/Datasets/Indian_Liver_Patient_Dataset.arff");//datasets.add("/global/home/users/giladk/Datasets/seismic-bumps.arff");//datasets.add("/global/home/users/giladk/Datasets/cardiography_new.arff");

同时把resource/config.properties最后两行的内容改掉:

DatasetInstancesFilesLocation=/home/dk/dataset/
backgroundClassifierLocation=/home/dk/dataset/

以及resultsFilePath=/home/dk/dataset/ExpResults// 结果路径改掉自己想保存结果的目录。

  1. 在inteli-idea编译build即可。 在build的时候,会需要一段时间安装所需的jar库。对于那些无法自动安装的jar包,比如com.sun.applet的包 可以把源码中对他的import注释掉。
  2. 打开/home/dk/Desktop/ExploreKit-master/src/main/java/explorekit/Program.java 然后右键 Run即可。
num of attributes:  9
num of instances:  768
Starting to run classifier Wed Jul 31 13:01:27 CST 2019
Starting to process classification results Wed Jul 31 13:01:27 CST 2019
Starting TPR/FPR calculations : Wed Jul 31 13:01:27 CST 2019
Done : Wed Jul 31 13:01:27 CST 2019
Done Wed Jul 31 13:01:27 CST 2019
Starting to run classifier Wed Jul 31 13:01:27 CST 2019
Starting to process classification results Wed Jul 31 13:01:27 CST 2019
Starting TPR/FPR calculations : Wed Jul 31 13:01:27 CST 2019
Done : Wed Jul 31 13:01:27 CST 2019
Done Wed Jul 31 13:01:27 CST 2019
Starting to run classifier Wed Jul 31 13:01:27 CST 2019
Starting to process classification results Wed Jul 31 13:01:27 CST 2019
Starting TPR/FPR calculations : Wed Jul 31 13:01:27 CST 2019
Done : Wed Jul 31 13:01:27 CST 2019
Done Wed Jul 31 13:01:27 CST 2019
Starting to run classifier Wed Jul 31 13:01:27 CST 2019
Starting to process classification results Wed Jul 31 13:01:27 CST 2019
Starting TPR/FPR calculations : Wed Jul 31 13:01:27 CST 2019
Done : Wed Jul 31 13:01:27 CST 2019
Done Wed Jul 31 13:01:27 CST 2019
Experiment Start Date/Time: Wed Jul 31 13:01:27 CST 2019
Starting TPR/FPR calculations : Wed Jul 31 13:01:27 CST 2019
Done : Wed Jul 31 13:01:27 CST 2019
IOException: /home/dk/dataset/ExpResults/pima_diabetes_0_0.csv (No such file or directory)
Initial score: 0.7424410086424045 : Wed Jul 31 13:01:27 CST 2019

ExploreKit使用相关推荐

  1. python automl_分享一篇比较全面的AutoML综述

    今天刚刚看到在arXiv上出现了一篇关于AutoML的比较全面的综述,于是赶紧略读了一下,第一时间做个简要的分享.论文地址: https:// arxiv.org/abs/1810.1330 6 . ...

  2. 自动机器学习(AutoML)最新综述

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  3. 深度学习学界业界进展调研

    0. 端到端 数据集构建(数据集的缺乏对于大规模深度神经网络的训练是一个很严重的问题) 特征工程: 优化算法 ADMM:Alternating direction method of multipli ...

  4. [转载]自动机器学习(AutoML)领域论文合集

    转载自:2019年 https://blog.csdn.net/mrjkzhangma/article/details/103024818 Awesome-AutoML-Papers includes ...

  5. 自动化机器学习(AutoML)文献/工具/项目资源大列表分享

    本文整理了与自动化机器学习相关的经典论文.开源工具.项目.免费经典书籍.会议.经典文章和其他资源的列表. AutoML介绍 AutoML是使用机器学习方法和过程来自动化机器学习系统并使其更容易访问的相 ...

最新文章

  1. 廖雪峰团队最新研磨的实战宝典终终终终终终于免费了!
  2. CentOS 6.3(x86_64)下安装Oracle 10g R2
  3. python求不规则图形面积_python 微积分之---黎曼和
  4. linux 循环每个月,SHELL脚本每月最后一天判断
  5. 好记心不如烂笔头,ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题...
  6. 【插件开发】—— 13 GEF双击模型事件
  7. 【Python文件处理】递归批处理文件夹子目录内所有txt数据
  8. Linux Shell 文本处理工具集锦 zz
  9. MFC不能用UpdateData的解决方法
  10. 7.企业应用架构模式 --- 分布策略
  11. Python 列表和元组学习
  12. IT兄弟连 JavaWeb教程 JSP定义
  13. 用ffmpeg转多音轨的mkv文件
  14. 合数阶群与素数阶群的双线性映射
  15. 用文氏图解析条件概率与贝叶斯概率
  16. linux ping结果中mdev,ping之mdev值
  17. 磁盘管理器显示状态良好 计算机不显示,win7系统打开磁盘管理显示显示状态良好(有危险)的解决方法...
  18. Python爬虫实战,拉黑 QQ 空间屏蔽我的“大人物“
  19. 微信中控网页授权的实现
  20. 如何选择第三方鉴定机构?

热门文章

  1. 练习:使用经验贝叶斯克里金插值(EBK)来插入地震震动强度的地图,在日本创建一个震动强度的面
  2. 10个值得收藏的ChatGPT辅助编程技巧
  3. 美团开放配送平台,争食即时配送业务
  4. 没有病毒细菌,日本皇室的致命脚气从何而来
  5. 蓝桥杯-核桃的数量 (求三个数的最小公倍数)
  6. 素食认证EVE VEGAN怎么申请?
  7. [国产PLC]耐特过硬PLC在太阳能热水器系统中如何运用
  8. [绍棠] 正则表达式
  9. 如何做一个创新性项目(NABCD模型)
  10. Express 中间件及路由