文章目录

  • 统计学习问题举例.
  • 垃圾邮件.
  • 前列腺癌.
  • 手写数字识别.
  • DNA微阵列表达.
  • 全书安排.

统计学习问题举例.

  • 预测一名由于心脏病发作而住院的病人,是否会有第二次心脏病发作。该预测将会基于人口统计数据、规定饮食以及临床评估来做出。
  • 基于公司业绩指标company performance measure经济数据economic data,预测未来 6 6 6 个月以内的股票价格。
  • 依据某位糖尿病患者血液的红外吸收光谱infrared absortion spectrum来评估其血液中的葡萄糖含量。
  • 从数码影像digitized imgae中识别出手写邮政编码中的数字。
  • 基于临床和人口统计学变量确定前列腺癌的危险系数risk factor.

  • 典型情境下,我们希望基于属性集set of features预测出结果指标outcome measurement,结果指标可以是定量的quantitative,例如股票价格;也可以是分类的categorical,例如患者是否复发心脏病。
  • 监督学习的训练集中我们可以同时观察到结果和属性,依托于训练集可以得到预测模型,或者称之为学习器Learner,它可以对那些新的、未见过的对象做出预测。显然对于新对象的预测结果愈加准确则说明该学习器愈加强大。之所以被称为监督学习,是因为有在训练集中包含了结果指标,用以指导训练过程。
  • 与之相对的是非监督学习,在训练集中我们只能观测到属性,而没有结果指标。非监督学习的任务通常是描述数据的组织方式organized、聚集方式clustered.

垃圾邮件.

  • 基于大量的邮件数据,期望训练出一个垃圾邮件自动检测器Automatic Spam Detector,用以在垃圾邮件充斥着用户信箱之前过滤掉它们。
  • 训练集中的邮件数据是已知标签的,即对于邮件 x x x,它是正常邮件 e e e 或是垃圾邮件 s s s 已经确定。此外还拥有 57 57 57 个高频词以及标点的相对频率。
  • 显然垃圾邮件自动检测器ASD的训练是一个监督学习问题,其预测结果取值集合是二元集合 { e m a i l , s p a m } \{email,spam\} {email,spam},也被称为分类问题。
  • 在该问题中,学习器ASD出现不同类型错误的代价是不同的。倘若它将一封正常邮件当作垃圾邮件过滤掉,那么用户会因此错过重要信息,后续甚至会有重大损失;而如果将一封垃圾邮件当作正常邮件放入用户信箱,虽然不希望看到这样的结果,但就其后果而言,显然比前种错误更能让人接受。

前列腺癌.

  • 前列腺癌数据中评估了前列腺特异抗原prostate specific antigen水平与一系列临床量之间的相关程度,被采集数据的对象是 97 97 97 位将要接受根治性前列腺切除术radical prostatectomy的男性。
  • 研究者希望能够得到一个基于一系列属性来预测前列腺特异抗原水平的模型。实际操作时取对数,记为 l p s a . lpsa. lpsa.
  • 预测所需要的属性包括肿瘤体积、前列腺重量、年龄、良性前列腺增生数量、精囊侵袭等等诸多属性。由于最终预测结果是量化值,因此该问题是回归问题。

手写数字识别.

  • 数据集来自于美国邮政邮件信封上的手写邮政编码,每张图片都是从五位邮政编码上截下的单个数字,采用像素为 16 × 16 16\times16 16×16 的灰度图像存储。这些图片均已经过标准化,直观来看具有相同的大小和方向。
  • 手写数字识别器所要做的就是根据图像来预测出其中的数字是 { 0 , 1 , 2 , ⋯ , 9 } \{0,1,2,\cdots,9\} {0,1,2,⋯,9} 中的哪个,如果识别器的精确度足够高,就能够基于它实现一个信封自动分拣器。
  • 和垃圾邮件过滤器不同,信封分拣器中的手写数字识别器要求有极高的精度,否则错识数字将会导致信件无法正确抵达。一种保证高精度的方法是,对于模糊、扭曲的难识别数字,识别器将其分类为未知,转交给人工处理。

DNA微阵列表达.

  • DNA微阵列microarrays测量了细胞中基因的表达量,具体的测量方式是通过测量细胞中出现的mRNA(信使RNA)数量。
  • DNA微阵列的工作方式如下:
  • ① 数千种基因的核苷酸序列被打印在玻璃切片上;
  • ② 目标样本和参照样本分别以红色、绿色染料标示,并和玻璃切片上的DNA进行混合;
  • ③ 通过荧光镜检查fluoroscopy能够得到每个位置上RNA杂化强度,结果表现为数千个数值,衡量了每种基因在目标样本上相较于参照样本的表达水平。正值说明目标样本中有更高的表达水平,负值反之。
  • 基因表达数据从一组DNA微阵列实验中收集数据,其中每一列代表一次实验,每一行代表一种基因。例如一个 6830 × 64 6830\times64 6830×64 的基因表达数据表示 64 64 64 个样本在 6830 6830 6830 种基因上的表达水平。
  • 获得基因表达数据后,一大挑战是理解数据中的基因(行)与样本(列)是如何组织的,典型的问题有以下三个:
  • ① 就跨基因表达谱expression profile across genes而言,哪两个样本是最相似的;
  • ② 就跨样本表达谱expression profile across samples而言,哪两个基因是最相似的;
  • ③ 是否存在特定基因在特定癌症样本上表达量很高的情况。
  • 上述问题可以理解为回归问题,将样本和基因视为两个属性 —— 预测变量Predictor Variable,将表达水平视为结果指标 —— 响应变量Response Variable.
  • 然而,在生物信息学研究中,更加常见也更加自然的理解方式是将其视为无监督聚类问题,以上述数据为例,可以将 64 64 64 个样本视为分布在 6830 6830 6830 维空间的数据,而后进行聚类分析过程(通常是降维+聚类).

全书安排.

  • 第二章 监督学习问题概述
  • 第三、四章 回归和分类的线性方法
  • 第五章 样条、小波以及正则化方法
  • 第六章 核方法与局部回归
  • 第七章 模型评估与选择(偏差方差分解)
  • 第八章 模型推理与平均
  • 第九、十、十一章 回归问题
  • 第十二、十三章 分类问题
  • 第十四章 无监督学习方法
  • 第十五章 随机森林
  • 第十六章 集成学习
  • 第十七章 无向图模型
  • 第十八章 高维问题

【EoSL】Introduction相关推荐

  1. 【译】Introduction to Smart Contract and DApp Security

    ether这是我 与 Jessica Marshall , William Dias 和 C. Brown 在 ETHDenver 带领的研讨会的成绩单 . 你可以在他们的 Facebook页面 上看 ...

  2. 【译】Introduction to Byteball — Part 2: The DAG

    这是关于Byteball的系列文章的第2部分. 第1部分介绍了Byteball的原因 ,所以如果你错过了,先阅读,然后再回到这个. 宁可观看视频,而不要读故事? 然后观看下面的YouTube链接. 如 ...

  3. 【译】Introduction to Byteball — Part 1: Why?

    所以......让我们来谈谈一下Byteball吧! 实际上,Byteball是我最喜欢的加密项目. 我读了白皮书,我立刻就爱上了它. 除了原来的比特币白皮书之外,这种情况没有发生. 所以,当我说我不 ...

  4. opencv 修改图像数值_【1】Introduction to OpenCV (2)使用VS生成OpenCV应用程序

    本节是在完成OpenCV安装基础上进行的,用Microsoft Visual Studio来生成OpenCV应用程序.英文原文是在下载或者自己编译库文件,假设设置好环境变量后,详细说明如何在VS进行设 ...

  5. 【Unity-Graphics】Introduction to Lighting and Rendering

    灯光(Lighting)和渲染(Rendering)简介 现代游戏照明广泛使用"全局光照(global illumination)". 全局光照,或称"GI"是 ...

  6. 【Jupyter】【Python】- introduction 介绍

    Markdown Number lists are sequential: 不管你前面的数字是多少,run之后会自动排序. *,-,_等是无序的. latex等式: 句中等式:$ 段中等式:$$ Ba ...

  7. 【Cody】Introduction to MATLAB

    链接地址: https://ww2.mathworks.cn/matlabcentral/cody/groups/78 Problem 8. Add two numbers Given a and b ...

  8. 【Geometry】Introduction 计算机几何学(3)网格的细分与简化

    课程来源:GAMES101-现代计算机图形学入门-闫令琪 Lecture12 Lingqi Yan UC Santa Barbara 网格操作:几何图形处理 Mesh subdivision 网格细分 ...

  9. 【Geometry】Introduction 计算机几何学(1)

    计算机几何学 上图就是一个计算机几何学的例子,这些几何就很有意思了,这些曲面在我们的生活中,我们离近了去看,也看不见任何三角形.生活中是有这种光滑的曲面的. Implicit 隐式的几何 隐式的几何的 ...

最新文章

  1. Symantec Endpoint - quarantine
  2. 对于css的简化属性
  3. Git将主合并到功能分支
  4. matlab-JDBC操作MYSQL数据库中文乱码解决
  5. 操作系统页面置换算法
  6. ambari hdfs 启动报错_HDFS 运维常见问题处理
  7. php图片抖动,css3,jquery_css3图片抖动,css3,jquery - phpStudy
  8. 预留空间过大的OutOfMemoryError
  9. C语言作业二选择结构,C语言第二次作业参考答案选择结构.pdf
  10. html页面判断其他div为空,将外部html加载到div - 页面加载然后变为空白
  11. java swing 最小化到托盘_用Java实现程序最小化到托盘区
  12. ROS学习记录:在ROS的Rviz下完成摄像头的视频显示
  13. C/C++的转义字符
  14. X5内核视频之问答汇总
  15. java cnzz爬数据_PHPcurl抓取cnzz统计数据
  16. 论文笔记 EMNLP 2021|Treasures Outside Contexts: Improving Event Detection via Global Statistics
  17. 人工智能的窘境:对话系统
  18. AS Library 使用NDK 的一些坑 Unable to strip library (+深入了解部分gradle机制)
  19. html视频做成背景图,《图解HTML》- video标签实现视频背景
  20. 暑假学习计划:Day_1.JSPServletTomcat 环境搭建到基础的认识。

热门文章

  1. 利用requests库获取cookies的方式
  2. parallels client Mac 远程连接windows桌面
  3. 解决module java.base does not “opens java.lang“ to unnamed module @726f3b58问题
  4. 安卓系统刷机怎么刷机_安卓手机刷机教程
  5. Win10 怎么给php文件设置默认打开应用
  6. 正则表达式 re.findall 用法,包含正则规则讲解
  7. statement和prepareStatement的区别
  8. mysql存储引擎memory,ndb,innodb之选择
  9. 凡客诚品CEO陈年:卖服装比卖书挣钱多
  10. matlab中有虚数j吗,在MATLAB中用虚数部分对复数数组元素排序