总共就 400 来页对数据挖掘的描述,剩下都是对 Weka Workbench 用法的讲解。

开始讲了 2 个比较入门级别的算法, 不知道如何翻译,扎抄原文如下:

  • Inferring Rudimentary Rules
  • Statistical Modeling

第一个算法也叫1R: Simplicity First: 最简单最优先法则

1) 根据每个不同的属性的值,设置一套与结论匹配的规则。如果与结论对应(假设其他属性值不变,因为某个属性值导致了结果经常出现),这个属性值代表的规则就为 true, 反之,则为 false; 把为 false 的记录简单相加,并除以符合这个属性的所有记录的个数,得到这个属性的某一些值与结论不合符的比例,比例最小的属性则对结论的关键性决定就越强

2) 根据第一条规则,为什么要计算“不符合”的属性比例,而不是计算“符合”属性的比例,这样不是更快捷?

第二个算法是基于统计建模来判别属性值与结果的概率,核心思想是 - 每个属性同等重要与独立不相关

1) 假设有四个 Attribute, Outlook, Temperature, Humidity, Windy. 有一个结果 play ( true, false). 这四个属性对结果来说,是同等重要的,没有相互依懒或者权重的关系。

2)我们计算每个属性值对应结果 play(true, false) 的概率, 如下图所示: 归纳了每个属性值的两类概率:在本属性区域内的概率,和在整个数据集当中对应的概率

那么对于给定的一个预测值,我们预测它对应的 play(true, false) 对应的概率,是这样计算的:
假设:Outlook = Sunny, Temperature = cool , Humidity = high , Windy = true , Play = ?

P(play=yes)=2/9X3/9X3/9X3/9X9/14=0.0053P ( play = yes ) = 2/9 X 3/9 X 3/9 X 3/9 X 9/14 = 0.0053
P(play=false)=3/5X1/5X4/5X3/5X5/14=0.0206P ( play = false ) = 3/5 X 1/5 X 4/5 X 3/5 X 5/14 = 0.0206

有一种异常,当一个属性值 比如 Temperature = Hard Cool, 那么概率就是 0 了。 我们可以这样解决:凑份子

P(play=yes)=(2+up1)/(9+u)X(3+up2)/(9+u)X(3+up3)/(9+u)…..P ( play = yes ) = ( 2 + up1)/( 9 + u) X ( 3 + up2) / ( 9 + u ) X ( 3 + up3) / ( 9 + u) …..

这里, p1 + p2 + p3 = 1. 那么我们就可以给这些附上权重,当然有点违背 Statistics Modeling 的初衷。

统计建模的概率计算法则:

P(H|E)=P(E1|H)∗P(E2|H)∗P(E3|H)∗P(E4|H)∗P(H)P(E)

P(H|E) = \frac {P(E1|H)*P(E2|H)*P(E3|H)*P(E4|H)*P(H)}{ P ( E ) }

data mining - 实用机器学习工具与技术 - 读书笔记( 一 )相关推荐

  1. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  2. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  3. dataframe常用操作_【Data Mining】机器学习三剑客之Pandas常用算法总结上

    一.前言 看pandas之前我建议先看我的numpy总结,效果更佳. SEU-AI蜗牛车:[Data Mining]机器学习三剑客之Numpy常用算法总结​zhuanlan.zhihu.com 可以 ...

  4. python第三章上机实践_《机器学习Python实践》读书笔记-第三章

    <机器学习Python实践>,第三章,第一个机器学习项目 以往目录:橘猫吃不胖:<机器学习Python实践>读书笔记-第一章​zhuanlan.zhihu.com 书中介绍了一 ...

  5. 现代计算机密码学阶段主要有两个方向,密码学技术读书笔记

    关于密码学技术读书笔记 一.密码学的介绍 密码学(在西欧语文中,源于希腊语kryptós"隐藏的",和gráphein"书写")是研究如何隐密地传递信息的学科. ...

  6. The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification--阅读笔记

    The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification and Regress ...

  7. 《机器学习:实用案例解析》,读书笔记

    第1章:数据处理技巧 案例1: 数据:6,0000条不明飞行物(UFO)的目击纪录和报道.主要目击纪录发生在美国. 问题:面对这份数据的时空维度,我们可能会有以下疑问:UFO的出现是否有周期性规律?美 ...

  8. 【Data Mining】机器学习三剑客之Numpy常用用法总结

    点击"小詹学Python",选择"置顶"公众号 重磅干货,第一时间送达 本文转载自AI蜗牛车,禁二次转载 一.前言 玩数据分析.数据挖掘.AI的都知道这个pyt ...

  9. 嵌入式软件调试技术 读书笔记

    第一章 软件调试概述 第二章 边界扫描测试技术 (JTAG) 第三章 学习使用GDB调试器 第四章 GDB远程调试技术 第五章 网络应用程序调试 第六章 多进程与多线程调试 第七章 静态库与动态库的调 ...

最新文章

  1. PhoneGap/Cordova Android应用签名发布系列问题处理收集
  2. ubuntu下hbase的伪分布式安装与配置
  3. Java核心技术卷1心得笔记1---Java程序设计概述
  4. vue中自定义指令、组件化、生命周期、节流和防抖、获取DOM、mint-ui简介、过渡和动画
  5. oracle 网络访问配置tnsnames.ora文件的路径
  6. Thread多线程用法示例
  7. [转]C# JSON格式的字符串读取到类中
  8. 22个值得收藏的Android开源代码
  9. 黑天鹅mobi_破坏我们系统的因素:黑天鹅分类法
  10. 小程序EXcel文件下载并打开
  11. 【贪玩巴斯】带你一起攻克英语语法长难句—— 第五章——尾声的凯旋:状语和状语从句 ——2022年2月25日-3月17日
  12. 基于采样的规划算法之动态窗口法(DWA)
  13. android10禁用华为桌面,[原创]简单分析华为emui10对第三方桌面的禁用逻辑(华为手机管家app) + 求助新rom的分析入手思路...
  14. 用HTML5做一个类似于智能对话的可以自动回复的网页对话框
  15. MySQL计算机机房管理系统_机房管理系统的设计与实现(JSP,MySQL)(含录像)
  16. 【数分书单】业务学习《从零开始做运营入门篇》第一/二/三章小结
  17. 商场如战场,职场似沙场
  18. python读写protobuf
  19. 过来人谈《去360还是留在百度?》
  20. nginx 配置域名 http https 80+443端口

热门文章

  1. 富途证券 8.14
  2. 软件开发与软件研发的区别
  3. shell的转义字符
  4. 解决deepin系统中某磁盘的文件为只读文件
  5. 深圳博瑞得一定不要去
  6. 静态页面和动态页面中的静态和动态到底指的是什么
  7. Windows 下TSI721数据采集软件
  8. 关于点焊,你知道多少
  9. Word 神器 python-docx
  10. 【数论】欧几里得算法