本文代码均已在 MATLAB R2019b 测试通过,如有错误,欢迎指正。

ID3算法涉及了递归部分,有点难度,我打算最后一次实验来写,这次先写算法中最简单的部分:选择信息增益最大的一个条件属性作为根节点。

(一)决策树生成算法的基本原理

决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分类。决策树是类似流程图的倒立的树型结构。最顶层节点为根节点,是整个决策树的开始;树的每个内部节点表示在一个属性上的测试,其每个分支代表一个测试输出;树的每个叶节点代表一个类别。最后生成类似于下图所示的决策树。

(二)ID3算法的基本原理

ID3算法主要针对属性选择问题而提出,是决策树学习方法中最具影响和最为典型的算法。在ID3算法中,选择具有最大信息增益(information gain)的属性作为当前划分节点。在信息增益的计算中,运用了信息论中的熵(Entropy)概念作为启发式函数。
ID3算法的具体流程如下:
(1)对当前样本集合,计算所有属性的信息增益;
(2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
(3)若子样本集的类别属性只包含一个取值,则分支为叶子节点,将叶子节点的类别标记为类别属性的取值,返回调用处;否则对子样本集递归调用本算法。

  • 信息增益:Gain(S, A)= Entropy(S) –Entropy(S, A)
  • Entropy(S)是决策S初始的不确定性;
  • Entropy(S, A)是收到A属性的信息后,决策S的不确定性;
  • Gain(S, A)是属性A对决策S的信息增益;Gain(S, A)越大,说明属性A对降低决策S的不确定性起到的作用越大。

(三)Matlab初步实现ID3算法

以下所有matlab代码均由我自己编写,我认为写法比较简单。

clear;clc;% 原始数据集data,最后一列为决策属性,其余为条件属性
data=[
0   2   0   0   0
0   2   0   1   0
1   2   0   0   1
2   1   0   0   1
2   0   1   0   1
2   0   1   1   0
1   0   1   1   1
0   1   0   0   0
0   0   1   0   1
2   1   1   0   1
0   1   1   1   1
1   1   0   1   1
1   2   1   0   1
2   1   0   1   0
];[n,m]=size(data); % n行m列
S=data(:,m); % 决策属性S
S_unique=unique(S); % 对决策属性取值进行去重
S_num=length(S_unique); % 去重后属性取值个数
for i=1:S_nump(i)=sum(S_unique(i)==S)/n; % p(i)表示第i个决策属性取值的行数占n行元组中的比例
end
E0=-sum(p.*log2(p)); % 计算初始信息熵,E0=0.9403
fprintf("初始信息熵为%f\n",E0);% m-1个条件属性,分别计算获得每个条件属性后的信息熵以及信息增益
% Gain(S,A)=Entropy(S)–Entropy(S,A)
for k=1:m-1A=data(:,k);A_unique=unique(A);A_num=length(A_unique); % 去重后属性取值个数E(k)=0;% 取出属性A取值相同的行,构成一个数据子集,总共有A_num个不同的数据子集for i=1:A_num % A==A_unique(i)返回一个取值0或1的逻辑向量,若为1说明A取值为A_unique(i)data_new=data(A==A_unique(i),:); % 取出属性A取值相同的行,将其构成数据子集% 以下均是对当前取出的数据子集进行操作S=data_new(:,m); % 决策属性SS_unique=unique(S); % 对决策属性取值进行去重S_num=length(S_unique); % 去重后属性取值个数[n_new,m_new]=size(data_new); % 当前取出的数据子集有n_new行m_new列p=zeros(1,S_num); % 一定要写这句来限制矩阵大小!防止之后计算sum(p.*log2(p))时计算多余的pfor j=1:S_nump(j)=sum(S_unique(j)==S)/n_new; % p(j)表示第j个决策属性取值的行数占n_new行元组中的比例endw=n_new/n; % 当前数据子集的加权比重(当前数据子集行数占原数据子集行数的比例)E(k)=E(k)-w*sum(p.*log2(p));endG(k)=E0-E(k);fprintf("获得第%d个条件属性后,信息熵为%f,信息增益为%f\n",k,E(k),G(k));
end[mx,mxpos]=max(G);
fprintf("\n结论:选择信息增益最大的第%d个条件属性作为根节点,其信息增益为:%f\n",mxpos,mx);

运行结果:

初始信息熵为0.940286
获得第1个条件属性后,信息熵为0.693536,信息增益为0.246750
获得第2个条件属性后,信息熵为0.911063,信息增益为0.029223
获得第3个条件属性后,信息熵为0.788450,信息增益为0.151836
获得第4个条件属性后,信息熵为0.892159,信息增益为0.048127结论:选择信息增益最大的第1个条件属性作为根节点,其信息增益为:0.246750

数据挖掘实验(三)Matlab初步实现ID3算法【决策树根节点选择】相关推荐

  1. 河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集

    河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集 一.实验目的 二.实验原理 1.Apriori 算法 2.提高频繁项集逐层产生的效率 三.实验内容和步骤 1.实验内容 2.实验步骤 ...

  2. 实验三matlab实现,实验三matlab程序设计.docx

    实验三matlab程序设计.docx 共 24 页,第 27页 27 2014秋2012级<MATLAB程序设计>实验报告 班级:软件C121 姓名:冯杨腾 学号:125692 实验三 M ...

  3. matlab id3决策树,matlab实现的ID3分类决策树算法

    <matlab实现的ID3分类决策树算法>由会员分享,可在线阅读,更多相关<matlab实现的ID3分类决策树算法(4页珍藏版)>请在人人文库网上搜索. 1.function ...

  4. 广州大学机器学习与数据挖掘实验三

    实验三 聚类分析 一. 实验目的 本实验课程是计算机.人工智能.软件工程等专业学生的一门专业课程,通过实验,帮助学生更好地掌握数据挖掘与机器学习相关概念.技术.原理.应用等:通过实验提高学生编写实验报 ...

  5. 实验三matlab实现,实验三_MATLAB基本绘图练习.doc

    实验三_MATLAB基本绘图练习 实验 Matlab强大的图形处理功能掌握应用Matlab实现二维图形和三维图形的绘制和控制与表现方法1.y1=sin(x)),y2=cos(x) (),等间隔取100 ...

  6. 实验三 基于A*迷宫的算法

    一 实验要求 1.迷宫随机生成 2.玩家走迷宫,留下足迹: 3.系统用A*算法寻路,输出路径 解决问题 1.如何显示迷宫的图形界面: 2.如何生成随机的迷宫: 3.怎样移动游戏中走迷宫的"玩 ...

  7. 【实验三】LZW编解码算法实现与分析

    一.实验目的 1.掌握词典编码的基本原理,用C/C++/Python等语言编程实现LZW解码器并分析编解码算法. 2.选择十种不同格式类型的文件,使用LZW编码器进行压缩得到输出的压缩比特流文件.对各 ...

  8. 南京邮电大学操作系统实验三:虚拟内存页面置换算法

    实验内容 使用数组存储一组页面请求,页面请求的数量要50个以上,访问的页面号可以用随机数生成(0~20): (1)设置为分配给进程的页框数(假定是5),使用LRU算法,模拟完成全部的页面请求,最后输出 ...

  9. 实验三 面向对象初步

    1 实验目的 (1)学习如何声明和编写类的代码. (2)学习如何编写改变类的属性的成员函数. (3)学习如何声明和创建对象,如何通过对象调用类的成员函数. 2 实验内容 2.1 设计Point类(40 ...

  10. 【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )

    文章目录 一. 数据挖掘算法组件化思想 二. Apriori 算法 ( 关联分析算法 ) 三. K-means 算法 ( 聚类分析算法 ) 四. ID3 算法 ( 决策树算法 ) 一. 数据挖掘算法组 ...

最新文章

  1. AD RMS高可用(三)部署RMS根群集服务器
  2. make编译过程-Android10.0编译系统(三)
  3. Hadoop系列三:Hadoop之Pig篇
  4. Java多线程之线程虚假唤醒
  5. Oracle NVL与Coalesce函数的区别
  6. 跳跃游戏Python解法
  7. 《MySQL——主备切换流程与主备延迟》
  8. 硬件密码组件的硬件结构、作用及实现应用设计
  9. if函数 字体自动标红_发喜糖!REPT函数和图表订婚了~~
  10. R资讯| 广州R会第三批嘉宾揭晓!!
  11. 二分搜索(Binary Search)
  12. c语言餐厅饭卡管理系统,饭卡管理系统
  13. 天涯明月刀服务器维护,天涯明月刀手游维护时间表一览,维护什么时候结束?[多图]...
  14. c html中让图片反色,图片反色.html
  15. 基于Qt的NAT检测和NAT穿透
  16. oracle pck文件是什么,PCK文件扩展名 - 什么是.pck以及如何打开? - ReviverSoft
  17. 国际学校入学考试MAP语法测试题真题讲解
  18. 全球害虫控制收入预计2028年达到231.6亿美元
  19. 阴阳师最新的服务器,阴阳师6月30日正式服务器更新内容一览
  20. 七届世界冠军迈克尔-舒马赫将正式退役

热门文章

  1. st7789 旋转_ESP32驱动ST7789液晶屏
  2. 软件测试书在线阅读,软件测试实用教程
  3. python曲线镜像_在Python中以对角方式镜像图像
  4. 如何批量设置 Word 文档的只读密码?
  5. ArcGIS Server Flex API接入MapABC地图
  6. 关于上兴远程监控的使用
  7. oracle磁带库清洁带标签,分享那些在磁带库上爬过的坑
  8. IBM-LTO1,LTO2,LTO3,LTO4,LTO5 LTO6 磁带读写速度和兼容性
  9. 无密码如何破解PDF加密
  10. 文本时间修改器android,NewFileTime(文件时间修改器)