xgboost答疑解惑

source:https://www.jianshu.com/p/1083b6feb576

两种调用方式

自身接口
类似sklearn的接口

三种接口的调用方式见：添加链接描述
添加链接描述
Xgboost版本对比（原生版与sklearn接口版）

对比预测结果，原生xgb与sklearn接口的训练过程相同，结果也相同。
不同之处在于：

原生采用xgb.train()训练，sklearn接口采用model.fit() 。

sklearn接口中的参数n_estimators在原生xgb中定义在xgb.train()的num_boost_round

sklearnwatchlist为[(xtrain,ytrain),(xtest,ytest)]形式，而原生则是ain,‘train’),(dtest,‘test’)],在数据和标签都在DMatrix中，元组里可以定位输出时的名字。

举例
分别使用两个版本对同一个数据集进行测试

导入库

from sklearn.model_selection import train_test_split
from pandas import DataFrame
from sklearn import metrics
from sklearn.datasets  import  make_hastie_10_2
from xgboost.sklearn import XGBClassifier
import xgboost as xgb
import pandas as pd#准备数据，y本来是[-1:1],xgboost自带接口邀请标签是[0:1],把-1的转成1了。
X, y = make_hastie_10_2(random_state=0)
X = DataFrame(X)
y = DataFrame(y)
y.columns={"label"}
label={-1:0,1:1}
y.label=y.label.map(label)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)#划分数据集

用两个版本设定相同的参数，对数据集进行训练
1）XGBoost自带接口

#XGBoost自带接口
params={'eta': 0.3,'max_depth':3,   'min_child_weight':1,'gamma':0.3, 'subsample':0.8,'colsample_bytree':0.8,'booster':'gbtree','objective': 'binary:logistic','nthread':12,'scale_pos_weight': 1,'lambda':1,  'seed':27,'silent':0 ,'eval_metric': 'auc'
}
d_train = xgb.DMatrix(X_train, label=y_train)
d_valid = xgb.DMatrix(X_test, label=y_test)
d_test = xgb.DMatrix(X_test)
watchlist = [(d_train, 'train'), (d_valid, 'valid')]#sklearn接口
clf = XGBClassifier(n_estimators=30,#三十棵树learning_rate =0.3,max_depth=3,min_child_weight=1,gamma=0.3,subsample=0.8,colsample_bytree=0.8,objective= 'binary:logistic',nthread=12,scale_pos_weight=1,reg_lambda=1,seed=27)
watchlist2 = [(X_train,y_train),(X_test,y_test)]print("XGBoost_自带接口进行训练：")
model_bst = xgb.train(params, d_train, 30, watchlist, early_stopping_rounds=500, verbose_eval=10)
print("XGBoost_sklearn接口进行训练：")
model_sklearn=clf.fit(X_train, y_train, eval_set=watchlist2,eval_metric='auc',verbose=10, early_stopping_rounds=500)y_bst= model_bst.predict(d_test)
y_sklearn= clf.predict_proba(X_test)[:,1]

xgboost源码

一般使用xgboost直接用pip install安装即可，下载源码主要以学习为主。
下载使用命令：

git clone https://github.com/dmlc/xgboost

xgboost学习率与迭代次数

原生接口：迭代次数通过num_boost_round设置，学习率通过eta设置。
sklearn接口：迭代次数通过 n_estimators设置，学习率通过 learning_rate设置

迭代次数越多，花费时间越长。
为优化这种情况，xgboost除了可以设置固定迭代次数以外，还可以根据评估，判断如果n次不再改进，则停止迭代（具体见eval部分）
学习率越高收敛越快，但也可能因为粒度太大，错过极值点。
调参方法：先粗调再细调，一开始将学习率设大一点，比如0.1-0.3，次数有说往大了调有说往小了调。待试验。

xgboost的eval系列参数

eval系列参数用于评估模型的状态，可以在每次迭代之后给模型打分，它本身与模型如何计算无关（无论它设成什么，最终模型都不变），只是评估当前模型好坏。这个功能非常重要，比如：有时候会看到在迭代过程中训练集评分提高，而测试集评分下降，一般就是过拟合了。使用它还可以控制当模型不再改进时，停止迭代（具体通过early_stopping_rounds设置）。

evals设置估计数据
evals可设置训练集和测试集，在每次迭代后用训练集和测试集代入模型，并给预测结果评分。
eval_metric现成的评估函数
可以设置rmse,logloss,error,merror,mlogloss,auc,ndcg,map等xgb自带的评估函数。
feval自定义评估函数
本例就需要自定义估伻函数，使用feval方法实现。它和梯度下降算法无法，主要用于显示，并判断何时终止迭代。最好别写太复杂，否则会延长计算时间。
early_stopping_rounds自动停止迭代
通过early_stopping_rounds设置，如果在n轮内正确率没有提升，则退出迭代，具体根据evals给出的数据判断，若其中包含多组数据，则取最后一个。
如果设置了early_stopping_rounds，模型会生成三个属性，best_score,　 best_iteration, bst.best_ntree_limit，以便下次选择最合适的迭代次数。
verbose_eval输出评估信息
如果设置为True输出评估信息，设置为数字，如5则每5次评估输出一次。

样本不均衡问题

设置scale_pos_weight
有时会遇到样本不均衡的问题，比如正例占99%，反例占1%，那么如果预测为全正例或者随机抽机，正确率也占99%。此时可使用scale_pos_weight提高反例权重，默认为1，不增加权重。
DMatrix设置weight
使用xgb自带的调用接口 (非sklearn接口)，需要把数据转成DMatrix格式，如果想给不同实例分配不同权重，可以转换时使用weight参数，它传入与实例个数等长的数组，数组中每个数对应一个实例的权重，在xgb每次迭代后调整权重时也会将它计算在内。

Xgboost的误差函数

Xgboost可以处理二分类，多分类，回归问题。处理不同问题，主要的区别在于指定不同的误差函数，xgboost会根据不同误差函数计算的结果调整权重进行下一次迭代。
通过参数objective可设置xgb自带的误差函数：回归一般用reg:xxx（如reg:linear），二分类用binary:xxx（如binary:logistic），多分类用multi:xxx（如multi:softmax）。误差函数的功能是通过训练集的label和预测值计算一阶梯度，二阶梯度，在源码中可以看到它们是如何实现的（C语言部分）。在调用train()训练时，也可以用参数obj自定义误差函数。