python环境下，XGBoost模型文件转pmml格式用于部署

一. python环境下生成PMML

1. sklearn接口的xgboost

需要用sklearn2pmml包来生成pmml文件，一共有两种方法：

方法一：在管道pipeline中进行fit后保存为pmml文件

from xgboost.sklearn import XGBClassifierbst=XGBClassifier(learning_rate=eta,     # learning_raten_estimators=num_rounds,booster='gbtree',objective='binary:logistic',silent=1,    # 为0打印运行信息；设置为1静默模式，不打印gamma=0.2,      # min_split_loss]（分裂最小loss）参数的值越大，算法越保守max_depth=3,subsample=0.7,  #参数控制对于每棵树，随机采样的比例 减小避免过拟合,  典型值：0.5-1，0.5代表平均采样，防止过拟合.reg_lambda=6,colsample_bytree=0.8,    #树级列采样min_child_weight=570,        # 决定最小叶子节点样本权重和,缺省值=1,避免过拟合. 值过高，会导致欠拟合verbosity=1,scale_pos_weight=14,     # 通常可以将其设置为负样本的数目与正样本数目的比值seed=9999,random_state=9999)model_type='classifier'
bst = PMMLPipeline([(model_type, bst)])
params = {"classifier__eval_set":[(X['val'],Y['val'])],"classifier__early_stopping_rounds": early_stopping_rounds,"classifier__eval_metric":'auc'}bst.fit(X['train'],Y['train'], **params)# 转为PMML文件
from sklearn2pmml import PMMLPipeline,sklearn2pmml
sklearn2pmml(bst, "xgb.pmml", with_repr = True, debug = True)
# 或者调用nyoka
from nyoka import xgboost_to_pmml
xgboost_to_pmml(pipeline, features, target, "xgb.pmml")

补充说明：pipline中还可通过DataFrameMaper存放数预处理相关步骤，但目前可支持的数据处理操作有限

附：pipline参数说明

方法二：直接将pkl文件转为pmml文件

bst = joblib.load(model_filedir + "xgb.pkl")from sklearn_pandas import DataFrameMapper
mapper = DataFrameMapper([([i], None) for i in features])
from sklearn2pmml import PMMLPipeline, sklearn2pmml
pipeline = PMMLPipeline([('mapper', mapper), ("classifier", bst)])
sklearn2pmml(pipeline, model_filedir+'xgb.pmml', with_repr=True)

注意：方法二无法指定ntree_limit之类的参数

2. xgboost原生接口

方法：jpmml-xgboost

原生xgboost.core库生成的XGBoost模型，不能使用sklearn2pmml生成pmml文件，只能通过jpmml-xgboost包，将已有的.bin或.model格式模型文件转为pmml文件

jpmml-xgboost需要包含入模标签的fmap文件和.model格式的模型文件，其中fmap文件生成方法：

### step1.  获取到.model模型文件
# 若建模时仅生成了.pkl文件，可通过下述代码转为.model文件
with open(pickle_file_path, 'rb') as f:xgb = pickle.load(f)
xgb.save_model(str(model_file_path))### step2.  生成fmap文件
'''
fmap(feature map file)：实现feature id和feature name的对应
格式为 featmap.txt: <featureid> <featurename> <q or i or int>\n
Feature id从0开始直到特征的个数为止，从小到大排列。
i表示是二分类特征
q表示数值变量，如年龄，时间等。q可以缺省
int表示特征为整数(when int is hinted, the decision boundary will be integer)
可根据以下语句通过读取pkl文件的feature_name生成，或者根据feature顺序通过别的方式生成
'''features = xgb.feature_names
file_name = 'xgb.fmap'def create_feature_map(file_name,features):outfile = open(file_name, 'w')for i, feat in enumerate(features):outfile.write('{0}\t{1}\tq\n'.format(i, feat))create_feature_map(file_name, features)

jpmml-xgboost的环境配置及pmml转换指令为：

step1. 下载jpmml-xgboost
step2. 命令行切换到jpmml-xgboost的项目文件夹，输入代码编译

mvn clean install

该步执行完后，jpmml-xgboost的项目文件夹下会多出一个target文件夹，里面包含生成好的jar包：

step3. jar包转换为pmml文件

java -jar target/jpmml-xgboost-executable-1.4-SNAPSHOT.jar  --X-nan-as-missing False --X-ntree-limit 93 --model-input xgb.model --fmap-input xgb.fmap --target-name target --pmml-output xgb_pmml.pmml

该步代码仅–model-input 、–fmap-input、–pmml-output为必须，其他参数根据模型要求填写。
–X-nan-as-missing：是否将nan作为缺失值，默认True
–X-ntree-limit：模型中包含early_stopping时，需要xgb.best_ntree_limit打印原模型早停数，并给该参数赋值

补：lightGBM与XGBoost步骤类似
step1. get clone jpmml-lightgbm
step2. 切换到jpmml-lightgbm/文件夹下执行mvn clean install，执行完毕后targe目录下会生成jpmml-lightgbm-executable-1.3-SNAPSHOT.jar
step3. 将txt格式的模型文件转pmml

bst.save_model(result_path+'lgb_model.txt')
java -jar target/jpmml-lightgbm-executable-1.3-SNAPSHOT.jar --lgbm-input lgb_model.txt --pmml-output lgb_model.pmml

二. PMML文件读取调用，作预测

1. java

这个网上有很多，可参考
GitHub - jpmml/jpmml-evaluator: Java Evaluator API for PMML
https://www.cnblogs.com/pinard/p/9220199.html
https://zhuanlan.zhihu.com/p/30378213

2. python

（1）pypmml

from pypmml import Model
model = Model.fromFile('xgboost.pmml')
df['prob_test']=model.predict(X[features])['probability(1)']

（2）sklearn_model_pmml
相关博客，未验证仅供参考

三. PMML相关开源库汇总

参考自

1. PMML模型转换库，生成PMML:

Python模型：

Nyoka，支持Scikit-Learn，LightGBM，XGBoost，Statsmodels和Keras
JPMML系列，比如JPMML-SkLearn、JPMML-XGBoost、JPMML-LightGBM等，提供命令行程序导出模型到PMML

R模型：

R pmml
r2pmml
JPMML-R：提供命令行程序导出R模型到PMML

Spark：

Spark mllib，但是只是模型本身，不支持Pipelines，不推荐使用。
JPMML-SparkML，支持Spark ML pipleines。jpmml/jpmml-sparkml

2. 模型评估库，读取PMML：

Java：

JPMML-Evaluator，纯Java的PMML预测库，开源协议是AGPL V3
PMML4S，使用Scala开发，方便在Scala和Java中使用，接口简单好用，开源协议是常用的宽松协议Apache 2

Python:

PyPMML，Python库调用PMML，PyPMML是PMML4S包装的Python接口

Spark：

JPMML-Evaluator-Spark
PMML4S-Spark

PySpark:

PyPMML-Spark

REST API:

AI-Serving，同时为PMML模型提供REST和gRPC API，开源协议Apache 2
Openscoring，提供REST API，开源协议AGPL V3

参考：
机器学习平台系列（八） - 模型在线预测服务之模型转换PMML
Python模型上线pmml以及自定义函数转换
玩转jpmml之tpot+sklearn2pmml自动化机器学习集成模型部署