如何使用 Java 调取 Python、R 的训练模型?
在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。
PMML
PMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。
也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理细节,我们这里不做深究,感兴趣的可以参见:http://dmg.org/pmml/v4-3/GeneralStructure.html。
PMML 能做什么
介绍完了 PMML 的概念后,大家可能还是很懵,不清楚它有什么用。先来相对正式地说下它的用处:对于 PMML,使用一个应用程序很容易在一个系统上开发模型,并且只需通过发送XML配置文件就可以在另一个系统上使用另一个应用程序部署模型。也就是说我们可以通过 Python 或 R 训练模型,将模型转为 PMML 文件,再使用 Java 根据 PMML 文件来构建 Java 程序。
来看一张关于 PMML 用途的图片:
这张图的信息来一一说明下:
整个流程分为两部分:离线和在线。
离线部分流程是将样本进行特征工程,然后进行训练、生成模型。一般离线部分常用 Python 中的 sklearn、R 或者 Spark ML 来训练模型。
在线部分是根据请求得到样本数据,对这些数据采用与离线特征工程一样的方式来处理,然后使用模型进行评估。一般在线部分常用 Java、C++ 来开发。
离线部分与在线部分是通过 PMML 连接的,也就是说离线训练好了模型之后,将模型导出为 PMML 文件,在线部分加载该 PMML 文件生成对应的评估模型。
我们可以看到,PMML 是连接离线与在线环节的关键,一般导出 PMML 文件和加载 PMML 文件都需要各个语言来做单独的实现。不过幸运的是,已经有很多大神实现了这些,可以参见:https://github.com/jpmml 。
实战环节
训练并导出 PMML
我们这里仍然是通过 sklearn 训练一个随机森林模型,我们需要借助 sklearn2pmml 将 sklearn 训练的模型导出为 PMML 文件。如果没有 sklearn2pmml,请输入以下命令来安装:
pip install --user git+https://github.com/jpmml/sklearn2pmml.git
我们来看下如何使用 sklearn2pmml 。
from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierfrom sklearn2pmml import PMMLPipeline, sklearn2pmml
iris = load_iris()
# 创建带有特征名称的 DataFrameiris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
# 创建模型管道iris_pipeline = PMMLPipeline([ ("classifier", RandomForestClassifier())])
# 训练模型iris_pipeline.fit(iris_df, iris.target)
# 导出模型到 RandomForestClassifier_Iris.pmml 文件sklearn2pmml(iris_pipeline, "RandomForestClassifier_Iris.pmml")
导出成功后,我们将在当前路径看到一个 PMML 文件:RandomForestClassifier_Iris.pmml。
导入 PMML 并进行评估
生成了 PMML 文件后,接下来我们要做的就是使用 Java 导入(加载)PMML文件。这里借助了 Java 的第三方依赖:pmml-evaluator。我们需要在 pom.xml 文件中加入以下依赖:
<dependency> <groupId>org.jpmml</groupId> <artifactId>pmml-evaluator</artifactId> <version>1.4.1</version></dependency><dependency> <groupId>org.jpmml</groupId> <artifactId>pmml-evaluator-extension</artifactId> <version>1.4.1</version></dependency>
引入 PMML 文件并进行评估的代码如下:
import org.dmg.pmml.FieldName;import org.dmg.pmml.PMML;import org.jpmml.evaluator.*;import org.jpmml.model.PMMLUtil;import org.xml.sax.SAXException;
import javax.xml.bind.JAXBException;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;
public class ClassificationModel { private Evaluator modelEvaluator;
/** * 通过传入 PMML 文件路径来生成机器学习模型 * * @param pmmlFileName pmml 文件路径 */ public ClassificationModel(String pmmlFileName) { PMML pmml = null;
try { if (pmmlFileName != null) { InputStream is = new FileInputStream(pmmlFileName); pmml = PMMLUtil.unmarshal(is); try { is.close(); } catch (IOException e) { System.out.println("InputStream close error!"); }
ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance();
this.modelEvaluator = (Evaluator) modelEvaluatorFactory.newModelEvaluator(pmml); modelEvaluator.verify(); System.out.println("加载模型成功!"); } } catch (SAXException e) { e.printStackTrace(); } catch (JAXBException e) { e.printStackTrace(); } catch (FileNotFoundException e) { e.printStackTrace(); }
}
// 获取模型需要的特征名称 public List<String> getFeatureNames() { List<String> featureNames = new ArrayList<String>();
List<InputField> inputFields = modelEvaluator.getInputFields();
for (InputField inputField : inputFields) { featureNames.add(inputField.getName().toString()); } return featureNames; }
// 获取目标字段名称 public String getTargetName() { return modelEvaluator.getTargetFields().get(0).getName().toString(); }
// 使用模型生成概率分布 private ProbabilityDistribution getProbabilityDistribution(Map<FieldName, ?> arguments) { Map<FieldName, ?> evaluateResult = modelEvaluator.evaluate(arguments);
FieldName fieldName = new FieldName(getTargetName());
return (ProbabilityDistribution) evaluateResult.get(fieldName);
}
// 预测不同分类的概率 public ValueMap<String, Number> predictProba(Map<FieldName, Number> arguments) { ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments); return probabilityDistribution.getValues(); }
// 预测结果分类 public Object predict(Map<FieldName, ?> arguments) { ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);
return probabilityDistribution.getPrediction(); }
public static void main(String[] args) { ClassificationModel clf = new ClassificationModel("RandomForestClassifier_Iris.pmml");
List<String> featureNames = clf.getFeatureNames(); System.out.println("feature: " + featureNames);
// 构建待预测数据 Map<FieldName, Number> waitPreSample = new HashMap<>(); waitPreSample.put(new FieldName("sepal length (cm)"), 10); waitPreSample.put(new FieldName("sepal width (cm)"), 1); waitPreSample.put(new FieldName("petal length (cm)"), 3); waitPreSample.put(new FieldName("petal width (cm)"), 2);
System.out.println("waitPreSample predict result: " + clf.predict(waitPreSample).toString()); System.out.println("waitPreSample predictProba result: " + clf.predictProba(waitPreSample).toString());
}
}
输出结果:
加载模型成功!feature: [sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]waitPreSample predict result: 1waitPreSample predictProba result: {0=0.0, 1=0.5, 2=0.5}
可以看到,模型需要的特征为:[sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)],预测该样本最终属于目标编号为 1 的类型,预测该样本属于不同目标编号的概率分布,{0=0.0, 1=0.5, 2=0.5}。
小结
为了实现 Java 跨语言调用 Python/R 训练好的模型,我们借助 PMML 的规范,将模型固化为 PMML 文件,再使用该文件生成模型来评估。
作者:1or0,专注于机器学习研究。
声明:本文为公众号 AI派 投稿,版权归对方所有。
如何使用 Java 调取 Python、R 的训练模型?相关推荐
- [转载] 机器学习 - 如何使用 Java 调取 Python、R 的训练模型?
参考链接: 用Python创建一个简单的机器学习模型 在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用--这就涉及到了使用 Java 跨语言 ...
- Java如何跨语言调用Python/R训练的模型
在 如何使用sklearn进行在线实时预测(构建真实世界中可用的模型) 这篇文章中,我们使用 sklearn + flask 构建了一个实时预测的模型应用.无论是 sklearn 还是 flask,都 ...
- 无监督方法实现C++、Java、Python 代码转换,程序员:出了bug怎么办,两种语言都要看吗?...
点击上方"视学算法",选择加"星标" 重磅干货,第一时间送达 本文转载自:机器之心 | 参与:魔王 Facebook 提出的无监督代码转换方法 TransC ...
- LeetCode 673. Number of Longest Increasing Subsequence--O(N log N )--Java,C++,Python解法
题目地址:Number of Longest Increasing Subsequence - LeetCode 做这道题目前建议先做:Longest Increasing Subsequence - ...
- 2018最具就业前景的7大编程语言,Java、Python和JavaScript?
2018 年即将到来,Coding Dojo(编码道场)近期发布了 2018 最具就业前景的 7 大编程语言.该公司分析了来自 Indeed 的 25 门编程语言.栈和框架的数据,以找出雇主最需求的七 ...
- paip.元数据驱动的转换-读取文件行到个list理念 uapi java php python总结
paip.元数据驱动的转换-读取文件行到个list理念 uapi java php python总结 #两个思路 1.思路如下:使用file_get_contents()获取txt文件的内容,然后通过 ...
- R语言ineq算基尼系数_5 月编程语言排行榜:Java第一,R跌出Top20
我们都知道,最近,TIOBE 发布了 5 月份编程语言排行榜.其中,前三名依然健稳不变,他们分别是 Java.C.C++,第四则为: Python ,第五则为 VB .NET. 下面两张图,我们可以看 ...
- java和python的比较-java和python的比较
1. 在实际运用的python入门简略,但要学会用python干活,需求再学习python各种库,pyhton的强壮在于库,为什么python的库强壮,原因是python的库能够用python,c言语 ...
- [pythonjava爬虫实战]-爬取学院老师信息之-java版本python版本
文章目录 Java 版本 思路: 预备工作: 简述 代码 python版本 代码 这个实战文章仅作为自己学习笔记记录:使用java和python爬取相同的内容,由于爬取内容涉及个人信息,去除了敏感信息 ...
最新文章
- GPU与CPU对比测试
- 区块链BaaS云服务(16)天德链TDBC“智能合约”
- 五、数据对象和属性类型
- intel服务器最新主板芯片组,intel主板芯片组的介绍
- 国家开放大学2021春1044合同法题目
- 【Pytorch神经网络实战案例】07 预测泰坦尼克号上生存的乘客
- easyui datagrid url不请求请求_Go Web编程--深入学习解析HTTP请求
- LeetCode 4	Median of Two Sorted Arrays
- linux 安全防护管理
- Java Web应用小案例:查询城市天气信息
- 排序(2):直接插入排序
- js 设置style属性
- SharePoint自动化系列——通过Coded UI录制脚本自动化创建SharePoint Designer Reusable Workflow...
- HP-UX 中配置Trusted System
- Tp nginx.conf 配置(Linux)
- mongodb 3.4 安装_【云服务器Centos7.x建站】MongoDB 3.4安装、使用、错误总结
- matlab剪切板中内容清除,如何清空剪贴板内容?剪切板内容清理过程
- 项目Kick Off的作用
- 换手机了备忘录怎么恢复?专家为你解答数据恢复问题
- IDEA远程debug调试设置
热门文章
- C++对象模型 笔记1
- Ubuntu安装GoogleTest框架并测试C++代码
- Flutter代码锦囊---摇一摇
- Flutter框架基础
- c语言10怎么打开文件,Lecture 10 C语言文件操作
- 计算机网络月考题职专一年级,2014-2015学年获嘉职专一年级期末试卷_计算机应用基础...
- 什么是html写出html的文档结构,HTML第二课:认识HTML4和HTML5的文档结构
- 1、java中自己觉得重要的部分——未完待续
- final finalize finally比较
- 使用kafka消息队列中间件实现跨进程,跨服务器的高并发消息通讯