场景:从样本集中采样80%用于训练,20%用于验证。

参考代码如下:

package com.gddx;import java.io.File;
import java.util.Map;import libsvm.LibSVM;
import net.sf.javaml.classification.Classifier;
import net.sf.javaml.classification.evaluation.EvaluateDataset;
import net.sf.javaml.classification.evaluation.PerformanceMeasure;
import net.sf.javaml.core.Dataset;
import net.sf.javaml.sampling.Sampling;
import net.sf.javaml.tools.data.FileHandler;
import be.abeel.util.Pair;/*** Sample program illustrating how to use sampling.* * @author Thomas Abeel* */
public class TutorialSampling {public static void main(String[] args) throws Exception {Dataset data = FileHandler.loadDataset(new File("D:\\tmp\\javaml-0.1.7-src\\UCI-small\\iris\\iris.data"), 4, ",");Sampling s = Sampling.SubSampling;Pair<Dataset, Dataset> datass = s.sample(data, (int) (data.size() * 0.8));System.out.println(datass.x().instance(0));//训练集System.out.println(datass.y().instance(0));//测试集Classifier c = new LibSVM();c.buildClassifier(datass.x());Map<Object,PerformanceMeasure> pms = EvaluateDataset.testDataset(c, datass.y());System.out.println(pms);/*for (int i = 0; i < 5; i++) {Pair<Dataset, Dataset> datas = s.sample(data, (int) (data.size() * 0.8), i);Classifier c = new LibSVM();c.buildClassifier(datas.x());Map<Object,PerformanceMeasure> pms = EvaluateDataset.testDataset(c, datas.y());System.out.println(pms);}*/}
}

Java机器学习库ML之三Sampling(采样)相关推荐

  1. java sampling_Java机器学习库ML之三Sampling(采样)

    场景:从样本集中采样80%用于训练,20%用于验证. 参考代码如下: package com.gddx; import java.io.File; import java.util.Map; impo ...

  2. Java机器学习库ML之六关于模型迭代训练的思考

    我遇到的场景是:样本集有5000万条,接近5个G,那么这样的样本集一次导入训练,我放着一天一夜都没跑出结果,机器性能还特别好,是64位linux有128G内存. 针对这样的情况,我想到的是两种思路: ...

  3. Java机器学习库ML之一Dataset和Instance

    Java机器学习库ML官网:http://java-ml.sourceforge.net/ 对于一个机器学习库来说,最基础就是数据处理能力,ml库给了dataset和instance两个类,datas ...

  4. Java机器学习库ML之八关于模型迭代训练的试验

    前文提到因为数据集过大,只能拆分然后依次迭代训练,实验发现对结果有所偏差,参考代码如下: package com.vip;import java.io.File; import java.util.M ...

  5. Java机器学习库ML之五样本不均衡

    样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡.有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会.样本不均衡导致的问题有: 1)少数类所包含 ...

  6. Java机器学习库ML之四模型训练和预测示例

    基于ML库机器学习的步骤: 1)样本数据导入: 2)样本数据特征抽取和特征值处理(结合模型需要归一化或离散化):这里本文没有做处理,特征选择和特征值处理本身就很大: 3)样本集划分训练集和验证集: 4 ...

  7. Java机器学习库ML之十一线性SVM

    线性SVM的原理就不多说了,最强大的就是libsvm库(ml库也是用这个),参考:http://blog.csdn.net/fjssharpsword/article/details/53883340 ...

  8. Java机器学习库ML之十模型选择准则AIC和BIC

    学习任务所建立的模型多数是参数估计并采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时也带来一个机器学习中非常普遍的问题--过拟合.模型选择问题是在 ...

  9. Java机器学习库ML之二Feature Selection(特征选择)

    机器学习中训练模型的前提必备工作就是特征选择,起到降维和降低计算开销的目的,当然在获取尽可能小的特征子集的同时,应不显著降低分类精度.不影响类分布.保持特征子集的稳定适应性强等. ML库提供了特征选择 ...

最新文章

  1. iOS黑科技之(CoreImage)静态人脸识别(一)
  2. 开源助推进NFV发展,红帽为运营商“定制”NFV落地方案
  3. Spring Boot 面试,一个问题就干趴下了!
  4. 【Leetcode】62. 不同路径
  5. php怎么定义索引,PHP未定义的索引/变量
  6. 傅立叶变换学习(一)初步认识傅立叶变换
  7. array_agg_探索强大SQL模式:ARRAY_AGG,STRUCT和UNNEST
  8. 【Tensorflow】深度学习实战02——Tensorflow实现进阶的卷积网络(CIFAR-10)
  9. 跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别
  10. Vue列表渲染---vue工作笔记0009
  11. linux如何导出mysql数据,linux下mysql数据的导出和导入
  12. 华住:移动时代,自主可控的架构秘密
  13. 58. web 攻击技术(2)
  14. Azure Linux VM密钥登录
  15. vue的UI框架之有赞移动端vant-ui
  16. crc32 C语言程序
  17. 使用canvas实现贪吃蛇
  18. 支付宝个人支付接口,无需营业执照
  19. 汇正财经骗局?科创50大涨
  20. 查看Ubuntu的版本号,并添加国内镜像源

热门文章

  1. Netty详解(五):Netty TCP粘包 拆包
  2. Java高并发编程(二):Java并发机制的底层实现机制
  3. 关联tomcat源代码
  4. Git 撤销中间某次的提交记录
  5. 从输入url到显示网页,后台发生了什么?
  6. Jira 6.0.5的详细安装及汉化授权
  7. UNP Chapter 9 - 基本名字与地址转换
  8. 针对Chrome的css的hack写法
  9. 约束理论学习随笔(2)---DBR系统
  10. SELinux策略语言--客体类别和许可