opencv3/C++ 机器学习-决策树/DTrees

决策树/Decision Tree

决策树/Decision Tree是一棵二叉树（每棵非叶子节点有两个子节点的树）。可用于分类或回归问题。对于分类问题（形成分类树），每个叶节点都标有一个类标签；多个叶节点可能具有相同的标签。对于回归问题（形成回归树），每个叶结点分配一个常量，所以回归函数是分段常量。

决策树从根结点递归构造。所有训练数据（特征向量和响应）用于分割根节点。在每个节点中，根据一些标准找到最佳决策规则（最好的“主要”分割）。如分类问题用“不/纯度”，回归问题用方差和。
关于不纯度，不同算法使用的计算方法不一，如ID3用信息增益/Information Gain作为不纯度；C4.5用信息增益率/Information Gain Ratio作为不纯度；CART用基尼系数/Gini Index作为不纯度。

然后，若有必要，找到替代分裂点。替代分裂点类似于训练数据的主要分割结果。所有的数据根据初始和替代分裂点来划分给左、右孩子结点（就像在预测算法里做的一样）。然后算法递归地继续分裂左右孩子结点。

节点递归过程的终止条件：

树的深度达到了指定的最大值。
在该结点训练样本的数目少于指定阈值。
在该结点所有的样本属于同一类（如果是回归的话，变化已非常小）。
能选择到的最好的分裂跟随机选择相比已经基本没有什么有意义的改进了。

树创建好之后，如有必要，可以使用交叉验证对其进行修剪。将可能导致模型过拟合的某些分支剪掉。通常仅适用于单决策树。树集合通常会建立一些足够小的树并且用他们自身的保护机制来防止过拟合。

变量重要性：
决策树除了用于预测之外，还可以用在多变量分析上。构建的决策树算法的一个关键特性是它能够计算每个变量的重要性（相对决策力）。每个变量的重要性的计算是在所有的在这个变量上的分裂进行的，不管是初始的还是替代的。这样的话，要准确计算变量重要性，即使没有缺失数据，替代分裂也必须包含在训练参数中。

OpenCV DTrees类

DTree可以表示一个单独的决策树，也可以表示树集成分类器中的一个基础分类器（Boosting或Random Trees）。

常用函数

virtual void setMaxDepth(int val) ;
树的最大可能深度。训练算法在节点深度小于maxDepth的情况下分割节点。根节点具有零深度。如果符合其他终止标准或修剪树，则实际深度会更小。默认值为INT_MAX。
virtual void setMinSampleCount(int val) ;
节点最小样本数量。若节点中的样本数量小于该值，则不会被分割。默认为10。
virtual void setUseSurrogates(bool val) ;
若为true，则建立替代分裂点。这些分裂点可以处理丢失的数据并正确计算变量的重要性。默认值为false。
virtual void setCVFolds(int val)；
如果CVFolds> 1，则算法使用K折叠交叉验证修剪构建好的决策树，其中K等于CVFolds。默认值是10。
virtual void setUse1SERule(bool val)；
若为true，则修剪将更加严格，使树更紧凑，抗噪声能力更强，但会降低部分准确度。默认值为true。
virtual void setTruncatePrunedTree(bool val);
若为true，则修剪后的分支会被完全移除。否则分支将被保留，并可能从原决策树中获得结果。默认值为true。

决策树示例

从文件points.txt中读取点坐标以及对应的分类，然后建立决策树对点所在区域进行划分。

#include <opencv2/opencv.hpp>
#include <opencv2/ml.hpp>
#include <iostream>
#include <fstream> using namespace std;
using namespace cv;
using namespace cv::ml;int main()
{vector<Point>  trainedPoints;vector<int>    trainedPointsMarkers;//读取文件中的点坐标FILE *fp;int flge = 0;int fpoint,flabel;Point point;fp = fopen("E:\\points.txt", "r+");if (fp == NULL){printf("Cannot open the file!\n");return -1;}while (!feof(fp)){   fscanf(fp, "%d", &fpoint);if (feof(fp)) break;//依次为横坐标、纵坐标、分类if ((flge%3==0? point.x = fpoint: flge%3==1? point.y = fpoint:flge%3==2? flabel = fpoint : -1)<0) return -1;if (flge%3==2){trainedPoints.push_back(point);trainedPointsMarkers.push_back(flabel);}flge++;}vector<Vec3b> colors(2);colors[0] = Vec3b(0, 255, 0);colors[1] = Vec3b(0, 0, 255);Mat src, dst;src.create( 480, 640, CV_8UC3 );src = Scalar::all(0);src.copyTo(dst);// 绘制点for( size_t i = 0; i < trainedPoints.size(); i++ ){Scalar c = colors[trainedPointsMarkers[i]];circle( src, trainedPoints[i], 3, c, -1 );circle( dst, trainedPoints[i], 3, c, -1 );}imshow( "points", src );//训练数据Mat samples;Mat(trainedPoints).reshape(1, (int)trainedPoints.size()).convertTo(samples, CV_32F);//建立模型Ptr<DTrees> model = DTrees::create();//树的最大可能深度model->setMaxDepth(8);//节点最小样本数量model->setMinSampleCount(2);//是否建立替代分裂点model->setUseSurrogates(false);//交叉验证次数model->setCVFolds(0); //是否严格修剪model->setUse1SERule(false);//分支是否完全移除model->setTruncatePrunedTree(false);//训练model->train(TrainData::create(samples, ROW_SAMPLE, Mat(trainedPointsMarkers)));//显示结果Mat testSample( 1, 2, CV_32FC1 );for( int y = 0; y < dst.rows; y += 3 ){for( int x = 0; x < dst.cols; x += 3 ){testSample.at<float>(0) = (float)x;testSample.at<float>(1) = (float)y;int response = (int)model->predict( testSample );dst.at<Vec3b>(y, x) = colors[response];}}imshow( "Decision Tree", dst );waitKey();return 0;
}

文件points.txt中的内容为：
（依次为横坐标、纵坐标、分类）