统计学习基础 第二版

引言

统计学习在诸多科学、金融、工业领域起到了关键性的作用,下面列举了一些学习的案例。

  1. 针对一位因心脏病住院的病人,预测其心脏病再次发作的概率。基于这位病人的人口信息、饮食和临床诊断信息来预测。

  2. 基于公司业绩评估和经济数据,预测6个月之后的股票走势。

  3. 基于数字化的图像,识别手写的邮政编码数字。

  4. 从糖尿病患者血液的红外吸收光谱数据估测患者血糖含量。

  5. 从临床诊断和人口统计变异值来确认前列腺癌的风险因素。

学习科学在统计、数据挖掘和人工智能领域扮演着重要的角色,在工程学和其他学科方面也有所影响。

这本书是关于数据学习的。在特定的时候,我们会得到一个结果值,通常是定量的(比如股票价格)或者是分类的(比如有心脏病或没有心脏病),我们的预测会基于一系列的特征(比如饮食、临床诊断)。我们会得到一组训练数据集,可以用来观察一个对象集(比如人)的输出结果和特征的测量值。利用这些数据,我们建立一个预测模型或者学习模型,这可以让我们对一些新的未知对象进行一些预测。一个好的学习模型可以精准地预测出结果。

表 1.1 从一封电子邮件中计算出字词的平均百分比。我们选取了一些字词来显示垃圾邮件和其他电子邮件的最大区别。

george you your    hp free   hpl    !   our    re   edu  remove

Spam

email

0.00 2.26 1.38  0.02 0.52  0.01  0.51 0.51  0.13  0.01  0.28

1.27 1.27 0.44  0.90 0.07  0.43  0.11 0.18  0.42  0.29  0.01

上面的例子描述了监督式学习的学习方式,之所有叫做监督式,是因为它利用学习结果来引导学习过程。在非监督式学习中,我们只观察特征而不会对结果进行测量。我们的任务是描述数据时如何组织或者聚合的。这本书大部分将致力于介绍监督式学习,非监督式学习在这里不会涉及许多,它会在第14章介绍。

下面是本书将要讲到的一些实际学习问题的例子。

例1:垃圾邮件

这个例子的数据时来自于4601封电子邮件,这些邮件是用来预测一封邮件是否是垃圾邮件。目的是设计一个自动识别垃圾邮件的检测器,能够将垃圾邮件过滤出来,以免填满用户的邮箱。在这4601封邮件中,得到的结果(邮件类型)是,这是普通邮件还是垃圾邮件,而且还会得到57个常用词和标点的相对频率。这是一个监督式学习问题,它的结果分为普通邮件或者垃圾邮件。这种问题又叫做分类问题。

表1.1列出的字词显示了垃圾邮件和普通邮件之间的最大平均差别。

我们所使用的学习方式必须决定使用哪种特征以及如何使用,比如我们可能会用如下方式:

if (%george<0.6) & (%you >1.5) then spam

else email.

而另一种形式的方式可能是:

if (0.2·%you−0.3·%george)>0 then spam

else email.

对于这种问题,并不是所有的误差都是平等的;我们想要避免过滤掉普通邮件,而在这种情况下让垃圾邮件通过是不让人满意而是不严谨的。我们会在本书中针对此类学习问题讨论几种不同的学习方式。

图 1.1 前列腺癌数据的散点图矩阵。第一行显示了各预测因子的反馈情况。其中两项预测因子,svi和gleason进行了分类。

例2:前列腺癌

关于这个例子的数据(图1.1),来自于Stamey et al.的研究(1989),这项研究在97位即将接受根治性前列腺切除术的男性中,检测了前列腺特异性抗原水平(PSA)和一系列临床诊断之间的关联性。

为了从一系列测量值中预测PSA(lpsa),癌细胞量(lcavol),前列腺重量lweight,年龄,良性前列腺增生值lbph,精囊侵袭svi,荚膜渗透lcp,格里森评分gleason和格里森评分4或5百分比pgg45。图1.1是各变量的散点图矩阵。一些关于lpsa的统计是明显的,但是一个好的预测模型是很难用肉眼来构建的。

这是一个监督式学习问题,又叫做回归问题,因为结果指标是定量的。

图1.2 U.S.邮政信封上手写数字的示例。

例3:手写数字识别

这个例子的数据来源于美国信封上手写的邮编。每张图片都分割自5位的邮编,隔离单个数字。这些图片是16×16像素,八位的灰度图,每个像素从0到255按强度排列。图1.2显示了一些样本图片。

这些图片都有大约相等的大小和方向。目的是在16×16的像素矩阵中快速并准确地识别每一图片(0,1,···9)。如果够准确地话,这个算法可以用在信封自动分类上。这是一个分类问题,对于这类问题,每一误差都应保持较小值,以避免邮件分类错误。为了达到如此小的误差,一些邮件可以标明“未知”,然后由人工进行分类。

例4:DNA微阵列表达

DNA的意思是脱氧核糖核酸,是组成人体染色体最基本的物质。DNA微阵列通过测量基因中的mRNA(信使核糖核酸)数量来测量细胞中基因的表达。微阵列被认为是生物学上一项突破性的技术,它促进了对一次抽样细胞上千基因中同时进行定量分析。

这里说明了DNA微阵列的工作原理。把几千基因上的核苷酸序列印在载玻片上,用红色和绿色染料来标记目标样本和参考样本,每个都与载玻片上的DNA混合。通过荧光镜检查,每边混合的RNA的强度变量记录(红或绿)被标记了。结果是,几千个数字(比如-6到6)衡量着目标样本中每个基因相对于参考样本的表达水平。正数表示的是目标样本比参考样本有着更高的表达水平,负数则反过来。

将一系列DNA微阵列实验的表达值收集在一起组成了一组基因表达的数据集,每列表示一次实验。几千行表示的是单个基因,几十列表示的是样本:在图1.3给出的具体例子中,有6830个基因(行)和64个样本(列),为了清晰表述,随机选了100行进行展示。这张图以热图的方式显示数据集,从绿(负)到红(正)。这些样本来自于64位癌症和肿瘤患者。

这里所面临的挑战是理解基因和样本是如何组织在一起的。常见的问题有:

  1. 哪一个样本的基因表达谱与其他样本的最相似?

  2. 哪一个基因的样本表达谱与其他基因的最相似?

  3. 对于特定的癌细胞样本,特定的基因表达会高还是低?

我们可以将这个问题看做是一个回归问题,有两个分类预测变量,基因和样本,将响应变量作为表达水平。然而,将它看做是非监督式学习可能更有用。比如,对于上面的(a)问题,我们把样本看成二维空间的6830个点,将这些点用某种方式聚合。

图1.3 DNA微阵列数据:人体肿瘤6830个基因(行)的表达矩阵和64个样本(列)。只显示了100个随机样本。以热图方式显示,从亮绿色(负,欠表达)到亮红色(正,过度表达)。灰色区域是缺失数据。行列随机排列。

(PS:翻译有不到位或错误的地方,还请各位指正。)

统计学习基础(第二版)——引言相关推荐

  1. 小白学习:李航《统计学习方法》第二版第11章 条件随机场

    小白学习:李航<统计学习方法>第二版第11章 条件随机场 小白学习:李航<统计学习方法>第二版第11章 条件随机场(一)----马尔科夫随机场 马尔科夫随机场(Markov r ...

  2. 首发:李航老师的《统计学习方法》第二版的代码实现(Github标星过万!)

    李航老师的<统计学习方法>第二版的代码实现更新完毕,本文提供下载.(黄海广) 李航老师编写的<统计学习方法>全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机. ...

  3. 李沐d2l《动手学深度学习》第二版——风格迁移源码详解

    本文是对李沐Dive to DL<动手学深度学习>第二版13.12节风格迁移的源码详解,整体由Jupyter+VSCode完成,几乎所有重要代码均给出了注释,一看就懂.需要的同学可以在文末 ...

  4. 电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析

    电信保温杯笔记--<统计学习方法(第二版)--李航>第17章 潜在语义分析 论文 介绍 单词向量空间 话题向量空间 话题向量空间 文本在话题向量空间的表示 从单词向量空间到话题向量空间的线 ...

  5. 李沐《动手学深度学习》第二版比赛2-Classify Leaves

    李沐<动手学深度学习>第二版比赛2-Classify Leaves 我的偶像,李沐大神主讲的<动手学深度学习>(使用Pytorch框架,第一版使用的是MXNet框架)目前已经进 ...

  6. TensorFlow 深度学习中文第二版·翻译完成

    原文:Deep Learning with TensorFlow Second Edition 协议:CC BY-NC-SA 4.0 不要担心自己的形象,只关心如何实现目标.--<原则>, ...

  7. TensorFlow 深度学习中文第二版(初稿)

    TensorFlow 深度学习中文第二版 第 1 章深度学习入门 人工神经网络 ANN 如何学习? 神经网络架构 深度学习框架 总结 第 2 章 TensorFlow 的首次观察 TensorFlow ...

  8. 电信保温杯笔记——《统计学习方法(第二版)——李航》第16章 主成分分析

    电信保温杯笔记--<统计学习方法(第二版)--李航>第16章 主成分分析 介绍 总体主成分分析 基本思路 直观解释 定义 主要性质 主成分个数 规范化变量 样本主成分分析 样本主成分的定义 ...

  9. 李沐《动手学深度学习》第二版 pytorch笔记1 环境搭建

    李沐<动手学深度学习>第二版pytorch笔记1 搭建环境 文章目录 李沐<动手学深度学习>第二版pytorch笔记1 搭建环境 此时尚有耐心 虚拟环境搭建 创建虚拟环境 查看 ...

  10. 《精通labview教程——由浅入深的范例学习(第二版)》课后题答案

    <精通labview教程--由浅入深的范例学习(第二版)>课后题答案,[美]John Essick著,[译]邓科等 课后题答案偶数部分是教程自带答案,奇数题目是自制答案 下载链接: 第一章 ...

最新文章

  1. 前端 验证码隐藏怎么实现_完成图形验证码
  2. id 的选择器为什么要这么写 li#first?
  3. Android 5.1 SystemServer SystemService 各个系统Manager
  4. C++学习之路 | PTA乙级—— 1038 统计同成绩学生 (20 分)(精简)
  5. 跌倒识别 摔倒识别 -lightweight_openpose
  6. 大一计算机期末考试高数试卷,大一高数期末考试试题
  7. H5跳转支付宝小程序
  8. 二广高速公路4标段道路设计--武汉理工大学本科生毕业设计
  9. php执行fastlane,Fastlane使用说明 自动化打包
  10. Ray Tracing
  11. 服务计算——net/http源码追踪
  12. Python3 数据库(MySQL/MongoDB/Redis)
  13. 1998-2014年企业绿色发展数据库
  14. 11个程序员必备简捷开发辅助工具
  15. 【GitHub学生包】2022年12月GitHub学生包最新申请教程 18次认证失败的经验之谈
  16. 使用BackTrack来增强电脑的安全
  17. kad是什么?ed2k是什么?他们之间有什么关系?
  18. 微信拍照和选择相册照片功能chooseImage
  19. java利用poi添加多张图片到word
  20. Java针对不同视频格式进行转码

热门文章

  1. moodle环境安装linux,Linux下安装Moodle
  2. java视频上传方法_java大视频上传实现
  3. 遗传算法及c++实现
  4. 详解2021华为笔试三道编程题
  5. 网络---NAT技术与代理服务器调研
  6. 快节奏多人在线游戏网络入门系列教程(4):爆头!滞后补偿
  7. 基于matlab的暴雨强度公式参数推求,基于Lingo和单纯形算法的综合暴雨强度公式参数解析...
  8. linux内核异常解析,内核异常分析方法
  9. WPS Office 2012兼容全部Office格式,为办公带来了很多便利
  10. 新消费万字之辩 | “疯狗浪”时代来临,品牌如何结构性增长?