来源:专知

信息论中最为基本的概念就是香农熵(第8页),由此可以导出信息论中其它各种定义,以至我们常规应用的其它经验式定义(以后会提到)。学习信息论基础知识时要避免仅是概念与定义的简单记忆,要尽量结合个人研究领域中的问题进行思考,并给出个人理解(如第20页中监督学习中的解释与思考)。这样有益于未来更快地发展创新工作。还要明白信息论理论仍在发展中,包括各种熵定义的不断出现。我们在第28页中示例了传统互信息定义在机器学习应用中的问题。可能这类问题在通讯领域的传统应用中不存在。为更好理解内容,建议读者对其中每个例题自行计算一下。你一定会有新的理解。对于有些内容现在无法理解(如第20页),不要着急。可以随着以后课程学习后,回头复习来不断理解。抱歉该课程未有提供视频或更多中文解说。基于本课件自学能够逐步理解也是能力的培养,从事科研工作必须要过这个关。建议有关作业尝试用笔记录回答一下,有益于反复思考。

此课件后面附加一个文件。是英国对口相声“热力学第一和第二定律”说明。

读者可以在虾米网站聆听该相声:

https://www.xiami.com/song/1794511373

作业:

1. 针对香农抓住了通信工程中的本质问题,请总结你从语义表达与计算表达中给出的理解。

2. 结合第28页中示例,以定理方式证明互信息可能存在的问题。

3. 你认为怎样应对互信息中这个问题,并给出具体解决方案。

第19页: 机器学习中通常会将互信息作为“相似性”度量,条件熵、散度、交叉熵作为“误差或损失”指标来应用。统称它们为指标或准则是可以包容散度这样非度量类别。 但是要理解这些信息指标是关于两个随机变量之间独立性的测量(第22页)。本质上不是相似性或损失的测量。

第20页: 这页内容对于理解信息论指标在监督学习中的内涵十分重要。其中T是目标类标变量,Y是预测类标变量。举例一下,T中100个样本,有50个苹果,有50个鸭梨为标签。因此H(T)是固定的。而分类学习中,我们可能预测为30个苹果,70个鸭梨。思考问题中,所谓“不正确(incorrect)”是由于应用了H(Y)为目标基点(Baseline),该基点犹如移动目标。从理论上讲,移动目标或固定目标对优化问题解应是一致的。从实际优化搜索而言,移动目标更易引起搜索中的震荡现象。因此认为是“不正确”。我们对互信息在在监督学习中的语义内涵给出了不同解释样例。在实际应用中,这种解释性特别重要,要兼有语义与计算层面的解释理解。比如思考问题中提到了聚类问题,这些指标的物理意义与选择方面解释是值得思考的问题。要理解机器学习中首要问题“学习目标选择”值得更多重视。对理论上等价的指标,选择某个的原因是什么呢?对各种学习目标我们有必要开展“系统化设计方法”研究(2001年我们在《自动化学报》关于模糊系统综述文章中对“系统化设计方法”给予了讨论)。

当信息论指标得到更多应用时,我们需要准确理解。比如许多分类学习方法中将交叉熵以误差或损失方式来说明。但是,此图及第19页计算公式告诉我们交叉熵H(T;Y)最小值应是H(T)且应大于“零”值。因为H(T)=0意味全部样本为一类。交叉熵大于“零”的性质说明与误差概念显然不同。我个人理解交叉熵可以有“零”值解是借用了交叉熵计算公式,且该公式应该称为逻辑损失(Logistic Loss)而非交叉熵。常规术语应用中要理解这之间的差异。

第23-28页: 二进制信道是通讯中最为基本的结构。在监督学习中这犹如对应了二值分类器。其中“擦除”功能(第24页)将增加一维输出,对应二值分类器就是增加了一个拒识(或未知)类别输出。第26页中的GBC结构可以描述其它结构。从机器学习角度讲,GBC可以称为带拒识类别二值分类器。通讯理论中通常应用“条件概率分布”描述二进制信道,这里我们应用“联合概率分布”来描述,不仅可以导出“条件概率分布”,而且可以对应二值分类器中的混淆矩阵。

附课件:

英国对口相声“热力学第一和第二定律”说明

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

国科大UCAS胡包钢教授《信息论与机器学习》课程第二讲:信息论基础一相关推荐

  1. 使用selenium自动下载国科大(UCAS)课程资源

    使用selenium爬取国科大课程资源 有些课程的资源实在太多,难得手动去下载,再整理,故写了一个简单实用的爬虫程序,自动下载所有课程资源,保持文件(夹)的层级关系. 为了各位同学方便,贴出此博客,介 ...

  2. 国科大学习资料–图像处理(彭思龙、杨戈)--第二次作业

    国科大学习资料–图像处理–第二次作业(彭思龙)(附完整代码) 答案仅供参考,严禁转载抄袭 题目 答案 <

  3. 国科大刘玉贵老师计算机算法设计与分析2021年期末考试题回顾

    总体感受 国科大研究生的计算机算法设计与分析课程有三位老师教授,分别是卜东波老师.陈玉福老师 和刘玉贵老师,这三位老师上课各有特色和风格.我选择的是刘玉贵老师的课程. 这门课程的内容挺充足的,但是有个 ...

  4. 中丹学院计算机,揭秘国科大北京综合评价测试:科学家当考官,没有“固定套路”...

    6月14日,500余名北京市高考考生在中国科学院大学(以下简称"国科大)迎来了一场特殊的考试--本科招生综合评价测试.高考成绩揭晓后,将有15名北京考生通过这一选拔方式拿到国科大的录取通知书 ...

  5. 国科大-图像处理复习(王伟强)

    国科大图像处理复习手稿 研一的图像处理课程,在考试结束之后将自己的总结记录一下,自己有写手稿总结的习惯,主要是对已经学到的知识进行一个总结.

  6. 国科大学习资料--计算机视觉(胡占义、董秋雷)--2018-2019第二学期期末试卷

    国科大学习资料–计算机视觉(胡占义.董秋雷)–2018-2019第二学期期末试卷 国科大学习资料–计算机视觉(胡占义.董秋雷)–2018-2019第二学期期末试卷 国科大学习资料–计算机视觉(胡占义. ...

  7. 国科大抢课避坑+选课指南+教务系统操作

    博客园: https://www.cnblogs.com/phoenixash/p/13669461.html 9月12日12:30,本菜鸡终于经历了国科大传说中的抢课大战,虽然自己之前准备的较多,但 ...

  8. 计算机科学与技术国科大,朋辈说‖国科大计算机科学与技术专业漫游指南

    编者按 为了帮助同学们更好地了解国科大提供给学生的学习机会以及留学申请环节,做好对未来的规划,国科大官微特别开设"朋辈说"专栏,共享国科大本科生的所见所学和所思所想.今天,国科大2 ...

  9. ICCV 2021 | 国科大提出首个CNN和Transformer双体主干网络!Conformer准确率高达84.1%!...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转载自:新智元 | 来源:arxiv 编辑:好困 Priscilla ...

最新文章

  1. 深入理解移动开发的模板复用机制
  2. 基于边缘云的机器流量管理技术实战
  3. VC6获取硬盘序列号、型号、修订版本号
  4. nessus 漏洞扫描器
  5. java spring事务管理系统_Java Spring-事务管理概述
  6. 6. OD-去除收费软件次数限制,去除退出软件时弹出的广告(比如可执行5次)
  7. python求1到n的平方和小于1000_C语言,求1到1000以内17倍数平方和,谢谢了
  8. 【转】8G内存下MySQL的优化详细方案
  9. RAR Extractor Max for Mac(解压缩软件)
  10. go中分析工具:pprof
  11. uploader java_java-webuploader+Java如何实现分片+断点续传
  12. 极简fseek()函数讲解,一分钟掌握
  13. 传微软iPod杀手Zune今年秋季上市 定价299美元
  14. 【软件设计】CS客户端整体架构
  15. c语言中变量属性,C语言学习笔记--C语言中变量的属性关键字
  16. 个人博客/博客管理系统/Siteserver cms
  17. 几个比较好的国外网站
  18. 网络安全- 专访丨互联网安全城市巡回赛冠军肖策:“大满贯”背后的秘密
  19. 联想服务器刀片机型号,ThinkSystem SN550刀片服务器
  20. camera驱动电源配置_[ROS] 安装 USB Camera 驱动并调用

热门文章

  1. Java基本类型和取值范围
  2. CIKM 2020 | 如何更为合适地评测推荐算法? Top-N物品推荐算法评测设置回顾
  3. 独家 | 指南:不平衡分类的成本敏感决策树(附代码链接)
  4. 数据蒋堂 | 非常规聚合
  5. 106页的《Python进阶》中文版(附下载)!
  6. 2019-2020 Google研究资助奖(Faculty Research Award)获奖出炉!185人上榜
  7. Linux事件循环阻塞,深入浅析Node.js 事件循环、定时器和process.nextTick()
  8. SAP RETAIL 寄售模式公司间STO流程里收货过账不能基于外向交货单?
  9. SAP 零售商品主数据修改物料组的方法
  10. AI每日精选:AI可追踪人体血糖水平;中国或成为首个AI超级大国