机器的学习的主要问题就是分类和回归问题,分类也可以看成是离散值的回归问题。训练器是基于训练集训练出一个回归函数,通过此回归函数用到测试集的分类中。这就需要对样本的分布信息有准确的把握,如果假设的样本分布与真实的数据分布有很大的差别的话,其最后产生的回归性能和分类性能都会受到重大影响。
    传统的样本分布估计采用的是参数估计的思想,即假设样本服从某个分布比如说正态分布,然后对正态分布的两个数理统计特征量均值和方差进行参数估计,依次来决定样本的分布。这种思想与先验知识有很大关系,比如对样本的整体分布有个预先的了解,但是针对多个分布合成的分布这种参数估计的思想将无能为力。无参数估计就是针对此歌问题,它关注的就是当前的数据本身,而不去用先验知识来首先确定样本的分布,在无参数分布中的核密度分布估计就是考虑到此分布是n个核密度分布函数叠加而成的一个分布,比如说以正态核函数为例,可以理解为用n个正态函数来逼近真实分布。但是这种无参数估计产生的计算量和数据存储量都是巨大的。不能够草率的说明参数估计更好。
这种思想可以Bayesian分类器进行说明,因为Bayesian分类器针对连续值函数就用到了样本的分布函数,朴素Bayesian分类器假设某个属性的值服从正态分布。这个完全就可以通过参数估计的思想来确定分类器的性能,就是通过无参数估计的思想来确定样本的分布。
Bayesian分类器的基本假设就是i.i.d(independently and identically distribution):独立同分布假设。上述的改进就是基于同分布方面对分类器进行的改进,有些学者为了提高分类器性能在独立性就行放松,这样产生了Bayesian网络分类器。
    现在数据挖掘的一个重大思想就是怎么利用有限的样本数据来很好的实现分类器的推广能力,所谓推广能力就是指在小样本训练集训练的分类器在大数据量的测试数据上性能仍然如此。这和数据的概率分布有很到的关系。

学数据挖掘就要懂数据相关推荐

  1. 河北工业大学数据挖掘实验一 数据预处理

    河北工业大学数据挖掘实验一 数据预处理 一.实验目的 二.实验原理 1.数据预处理 2.数据清理 3.数据集成 4.数据变换 5.数据归约 三.实验内容和步骤 1.实验内容 2.实验步骤 3.程序框图 ...

  2. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  3. 女生不能学理科?python+数据可视化分析15万考生的成绩,刷新了我的认知

    昨天是什么日子?推迟了一个月的高考终于来了,作为一个已经考完N年的人,说句实话,我比你们还激动! 因为我知道,它来的太不容易了. 说到高考,就不得不提那个别人口中的江苏卷,作文题的每个字我都认识,但是 ...

  4. 一文读懂数据中台技术架构

    一文读懂数据中台技术架构 https://www.toutiao.com/i6836923386560512516/?tt_from=weixin&utm_campaign=client_sh ...

  5. 作者:曾春秋,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。...

    曾春秋,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员.2009年7月-2012年1月为阿里巴巴(中国)网络技术有限公司高级数据工程师.主要研究兴趣包括大规模分布式数 ...

  6. 作者:周武柏,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。...

    周武柏,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员.主要研究兴趣包括数据挖掘和计算机系统管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域 ...

  7. 云计算和python学哪个_大数据、云计算该如何学习?

    大数据之Linux+大数据开发篇 阶段一.大数据.云计算 - Hadoop大数据开发技术 课程一.大数据运维之Linux基础 本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习H ...

  8. 大数据从何学起?大数据脑图+学习路线清晰的告诉你!

    近些年,大数据的火热可谓是技术人都知道啊,很多人呢,也想学习大数据相关,但是又不知道从何下手,所以今天在这里分享几个大数据脑图,希望可以让你清楚明白从哪里入门大数据,知道该学习以及掌握哪些知识点:当然 ...

  9. 如何读懂数据含义?(通俗版)

    很多新人读不懂数据含义.对着报表,只会和复读机一样,叨叨:"昨天销量100,今天销量120,增加20--"讲这些只要不是瞎子都能看的到的东西.也因此经常被笑话,咋办?!今天我们系统 ...

最新文章

  1. Nuxt.js开发中碰到的问题(二)引入gitment评论系统
  2. Jquery为DIV添加点击事件,Jquery为a标签超链接添加点击事件
  3. Win64 驱动内核编程-4.内核里操作字符串
  4. centos7怎么安装中文环境支持包
  5. 不要为框架作过多的假设
  6. linux ssh终端解决中文乱码的问题
  7. 爬取网页的通用代码框架
  8. springBoot shiro
  9. 【VS】项目属性配置(上)
  10. 五子棋人机对战_10.带人机对战的五子棋程序
  11. 网站性能测试工具--MS Web Application Stress Tool
  12. You must install libopus-dev
  13. dinic算法 java_网络流问题(Dinic算法JAVA实现)
  14. Java后端根据身份证号计算年龄
  15. 理解和应用共线平面束
  16. 定时关机win10_巧用任务计划程序定时关机
  17. 投票 java_Java基础之简单投票程序
  18. 模具冲压与模具设计知识点
  19. 修改本地hosts文件,出现不能写只能读权限,近root账户,密码忘记怎么办?
  20. python plot画简单的曲线图

热门文章

  1. nvim 的编译与安装
  2. 计算机视觉基础知识(第一章)
  3. 工作流引擎添新丁:Flowable6.0发布
  4. python知网查重_学长学姐使用知网查重的经验之谈
  5. 10进制转化为16进制的算法
  6. js运算保留后面两位小数
  7. windows10 android模拟器,手机windows10模拟器安卓版
  8. 2022年第31届中国国际信息通信展览会
  9. 产品经理和项目经理谁才是项目管理界的NO.1?
  10. 成都盛铭轩:怎么打造产品差异化