当数据的属性数量非常大,并且较多属性值为0时,考虑将arff文件进行稀疏处理,来优化读入和减少存储

例如下图中数据存在大量的0,读入数据时读入大量无用数据,并且浪费了存储空间

以上图为例

最初的arff数据是这样写的

@relation example

@attribute A1 numeric

@attribute A2 numeric

@attribute A3 numeric

@attribute A4 numeric

.......

%省略许多属性,下面是数据部分

@data

0 0 0 0 0 1......

如下图所示,实际arff

改写的时候注意将numeric类型写成离散型的

比如这里A1,A2属性写成如下形式,花括号内写出所有可能值即可

@attribute A1 {0,1}

@attribute A2 {0,1}

数据部分则如下书写

{5 1,9 1,17 1,.......}

上述写法表示,第5列数值为1,第9列数值为1,第17列数值为1....

列名和数值之间要空格,如下为示例

weka arff稀疏数据写法相关推荐

  1. Weka项目中的ARFF文件结构解析

    Weka作为数据挖掘开源项目中的经典,很多算法和数据的组织结构是值得学习的.Weka里面大量使用了一种叫做arff(Attribute-Relation File Format )的数据文件结构.这种 ...

  2. 【转载】Weka入门教程

    Source: http://forum.wekacn.org/viewtopic.php?f=2&t=9&sid=3e11f64d53cf134215bd69450412cdb9 1 ...

  3. WEKA使用教程(经典教程转载)

    WEKA使用教程 目录  1. 简介 2. 数据格式 3.数据准备 4. 关联规则(购物篮分析) 5. 分类与回归 6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato En ...

  4. ipriori weka java_weka apriori算法详解以及参数详解

    一.Apriori算法参数含义 本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据. ToolsàArffViewer,打开contact-len ...

  5. 数据挖掘工具软件Weka学习教程

    一.数据格式 理解数据格式后,就可以完全控制数据预处理过程. 1.1 ARFF格式 样例 说明 %整行注释 @relation person @attribute name string %半行注释 ...

  6. Weka中数据挖掘与机器学习系列之Exploer界面(七)

    不多说,直接上干货! Weka的Explorer(探索者)界面,是Weka的主要图形化用户界面,其全部功能都可通过菜单选择或表单填写进行访问.本博客将详细介绍Weka探索者界面的图形化用户界面.预处理 ...

  7. 使用数据挖掘软件Rapidminer进行关联规则分析

    这段时间使用了Rapidminer进行关联规则的挖掘实验,很多细节问题折腾了好长时间.在网络上也搜不到类似的东西,尤其是中间遇到一个问题折腾了两天.最后是通过研究Rapidminer本身带有的例子才把 ...

  8. Opensmile 简介

    OpenSMILE软件简介 --此部分内容转载自他人,并进行笔记梳理. --装载连接:http://blog.sina.com.cn/s/blog_8d351dfc0102w85j.html 一.简介 ...

  9. [WEKA]如何将英文文本数据集转换为ARFF格式

    若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader. TextDirecto ...

最新文章

  1. jQuery中ajax的4种常用请求方式
  2. android 关机 流程_Android系统关机的全流程解析
  3. 短视频Gif快手-有点意思 | 手摸手产品研究院
  4. python中函数的使用_python中的函数的使用示例
  5. python必备入门代码-20行python代码的入门级小游戏的详解
  6. 大型网站技术架构读书笔记
  7. MAC 设计师必备的设计绘图软件 推荐与下载
  8. 软件工程师笔试编程题
  9. 二项分布算法(伯努利实验)
  10. JS事件的绑定和解绑
  11. 关于如何使用原生实现表格固定列,纯 CSS 实现
  12. 整数规划---0-1型整数规划
  13. ElasticSearch实战(七)-BKD-Tree 多维空间树算法(范围查询算法)
  14. 《短线交易秘诀》读后感
  15. 一览印度区块链项目Matic Network的应用场景
  16. BMS算法中定义SOC需考虑哪些因素
  17. 【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
  18. MPU6050原始数据计算加速度、角速度、倾斜角度
  19. java五子棋难度设置_tiger(我) 用 java写简易五子棋游戏 上次没通过这次看看行不行...
  20. 国内八大网络硬盘对比分析

热门文章

  1. 理论+技术+代码已经准备完毕!2021年啃透花书!
  2. 别再用假任务做小样本学习实验了!来试试这个全新基准数据集
  3. 3步理清Python数据分析关键点,新手必看
  4. 直播|百度AI开发者大会深度学习直播课程表
  5. MySQL【付诸实践 01】Linux 环境 MySQL 数据库备份 shell 脚本(脚本源码及说明+定时任务配置+数据库恢复测试)粘贴可以
  6. 全局统一返回结果包装信息
  7. 力扣刷题常用数据结构和方法(java版本)
  8. Spring Security——SessionManagement中InvalidSessionStrategy自定义——简单跳过Fitter过滤刷新Session
  9. Jupyter Notebook——设置远程服务器登陆
  10. CG CTF MISC MD5