决策树分类器的应用研究—

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

%% 决策树分类器在乳腺癌诊断中的应用研究（2009a版本）%% 清空环境变量
clear all
clc
warning off%% 导入数据
load data.mat
% 随机产生训练集/测试集
a = randperm(569);
Train = data(a(1:500),:);
Test = data(a(501:end),:);
% 训练数据
P_train = Train(:,3:end);
T_train = Train(:,2);
% 测试数据
P_test = Test(:,3:end);
T_test = Test(:,2);%% 创建决策树分类器
ctree = classregtree(P_train,T_train);
% 查看决策树视图
view(ctree);%% 仿真测试
T_sim = eval(ctree,P_test);%% 结果分析
count_B = length(find(T_train == 1));
count_M = length(find(T_train == 2));
rate_B = count_B / 500;
rate_M = count_M / 500;
total_B = length(find(data(:,2) == 1));
total_M = length(find(data(:,2) == 2));
number_B = length(find(T_test == 1));
number_M = length(find(T_test == 2));
number_B_sim = length(find(T_sim == 1 & T_test == 1));
number_M_sim = length(find(T_sim == 2 & T_test == 2));
disp(['病例总数：' num2str(569)...'  良性：' num2str(total_B)...'  恶性：' num2str(total_M)]);
disp(['训练集病例总数：' num2str(500)...'  良性：' num2str(count_B)...'  恶性：' num2str(count_M)]);
disp(['测试集病例总数：' num2str(69)...'  良性：' num2str(number_B)...'  恶性：' num2str(number_M)]);
disp(['良性乳腺肿瘤确诊：' num2str(number_B_sim)...'  误诊：' num2str(number_B - number_B_sim)...'  确诊率p1=' num2str(number_B_sim/number_B*100) '%']);
disp(['恶性乳腺肿瘤确诊：' num2str(number_M_sim)...'  误诊：' num2str(number_M - number_M_sim)...'  确诊率p2=' num2str(number_M_sim/number_M*100) '%']);

%% 决策树分类器在乳腺癌诊断中的应用研究（2012b版本）%% 清空环境变量
clear all
clc
warning off%% 导入数据
load data.mat
% 随机产生训练集/测试集
a = randperm(569);
Train = data(a(1:500),:);
Test = data(a(501:end),:);
% 训练数据
P_train = Train(:,3:end);
T_train = Train(:,2);
% 测试数据
P_test = Test(:,3:end);
T_test = Test(:,2);%% 创建决策树分类器
ctree = ClassificationTree.fit(P_train,T_train);
% 查看决策树视图
view(ctree);
view(ctree,'mode','graph');%% 仿真测试
T_sim = predict(ctree,P_test);%% 结果分析
count_B = length(find(T_train == 1));
count_M = length(find(T_train == 2));
rate_B = count_B / 500;
rate_M = count_M / 500;
total_B = length(find(data(:,2) == 1));
total_M = length(find(data(:,2) == 2));
number_B = length(find(T_test == 1));
number_M = length(find(T_test == 2));
number_B_sim = length(find(T_sim == 1 & T_test == 1));
number_M_sim = length(find(T_sim == 2 & T_test == 2));
disp(['病例总数：' num2str(569)...'  良性：' num2str(total_B)...'  恶性：' num2str(total_M)]);
disp(['训练集病例总数：' num2str(500)...'  良性：' num2str(count_B)...'  恶性：' num2str(count_M)]);
disp(['测试集病例总数：' num2str(69)...'  良性：' num2str(number_B)...'  恶性：' num2str(number_M)]);
disp(['良性乳腺肿瘤确诊：' num2str(number_B_sim)...'  误诊：' num2str(number_B - number_B_sim)...'  确诊率p1=' num2str(number_B_sim/number_B*100) '%']);
disp(['恶性乳腺肿瘤确诊：' num2str(number_M_sim)...'  误诊：' num2str(number_M - number_M_sim)...'  确诊率p2=' num2str(number_M_sim/number_M*100) '%']);%% 叶子节点含有的最小样本数对决策树性能的影响
leafs = logspace(1,2,10);N = numel(leafs);err = zeros(N,1);
for n = 1:Nt = ClassificationTree.fit(P_train,T_train,'crossval','on','minleaf',leafs(n));err(n) = kfoldLoss(t);
end
plot(leafs,err);
xlabel('叶子节点含有的最小样本数');
ylabel('交叉验证误差');
title('叶子节点含有的最小样本数对决策树性能的影响')%% 设置minleaf为28，产生优化决策树
OptimalTree = ClassificationTree.fit(P_train,T_train,'minleaf',28);
view(OptimalTree,'mode','graph')% 计算优化后决策树的重采样误差和交叉验证误差
resubOpt = resubLoss(OptimalTree)
lossOpt = kfoldLoss(crossval(OptimalTree))
% 计算优化前决策树的重采样误差和交叉验证误差
resubDefault = resubLoss(ctree)
lossDefault = kfoldLoss(crossval(ctree))%% 剪枝
[~,~,~,bestlevel] = cvLoss(ctree,'subtrees','all','treesize','min')
cptree = prune(ctree,'Level',bestlevel);
view(cptree,'mode','graph')% 计算剪枝后决策树的重采样误差和交叉验证误差
resubPrune = resubLoss(cptree)
lossPrune = kfoldLoss(crossval(cptree))

决策树分类器的应用研究——乳腺癌诊断相关推荐

《MATLAB 神经网络43个案例分析》：第30章基于随机森林思想的组合分类器设计——乳腺癌诊断
<MATLAB 神经网络43个案例分析>:第30章基于随机森林思想的组合分类器设计--乳腺癌诊断 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB ...
《MATLAB智能算法30个案例》：第28章支持向量机的分类——基于乳腺组织电阻抗特性的乳腺癌诊断
<MATLAB智能算法30个案例>:第28章支持向量机的分类--基于乳腺组织电阻抗特性的乳腺癌诊断 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB ...
TF之LiR：利用TF自定义一个线性分类器LiR对乳腺癌肿瘤数据集进行二分类预测(良/恶性)
TF之LiR:利用TF自定义一个线性分类器LiR对乳腺癌肿瘤数据集进行二分类预测(良/恶性) 目录输出结果设计思路核心代码输出结果设计思路核心代码 X_train = np.float32 ...
MAT之SVM：SVM之分类预测根据已有大量数据集案例，输入已有病例的特征向量实现乳腺癌诊断高准确率预测
MAT之SVM:SVM之分类预测根据已有大量数据集案例,输入已有病例的特征向量实现乳腺癌诊断高准确率预测目录输出结果代码设计输出结果代码设计 load BreastTissue_data.m ...
分类决策树回归决策树_决策树分类器背后的数学
分类决策树回归决策树决策树分类器背后的数学 (Maths behind Decision Tree Classifier) Before we see the python implementat ...
机器学习算法——手动搭建决策树分类器(代码+作图)
决策树分类器实战决策树分类器原理(CART) 分类器实现使用鸢尾花数据集检验决策树分类器原理(CART) CART是决策树分类器的一种,它的独特之处在于可以处理分类问题也可以处理回归问题,具体处 ...
基于Python的决策树分类器与剪枝
作者|Angel Das 编译|VK 来源|Towards Data Science 介绍决策树分类器是一种有监督的学习模型,在我们关心可解释性时非常有用. 决策树通过基于每个层次的多个问题做出决策 ...
干货！容忍数据缺失的临床超声报告知识图谱乳腺癌诊断
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 医学领域经常存在样本短缺或数据缺陷的问题,在医学领域数据层面造成严重干扰.鉴于临床报告因登记过程的数据遗漏,诊断报告数据缺失问题会造成现 ...
乳腺癌诊断和药物技术行业调研报告 - 市场现状分析与发展前景预测
乳腺癌诊断和药物技术市场的企业竞争态势该报告涉及的主要国际市场参与者有Abbott.Roche.BioMerieux.Becton Dickinson.GE Healthcare.Hologic.P ...

决策树分类器的应用研究——乳腺癌诊断

决策树分类器的应用研究——乳腺癌诊断相关推荐

最新文章

热门文章