统计学习基础（第二版）—

统计学习基础第二版

引言

统计学习在诸多科学、金融、工业领域起到了关键性的作用，下面列举了一些学习的案例。

针对一位因心脏病住院的病人，预测其心脏病再次发作的概率。基于这位病人的人口信息、饮食和临床诊断信息来预测。
基于公司业绩评估和经济数据，预测6个月之后的股票走势。
基于数字化的图像，识别手写的邮政编码数字。
从糖尿病患者血液的红外吸收光谱数据估测患者血糖含量。
从临床诊断和人口统计变异值来确认前列腺癌的风险因素。

学习科学在统计、数据挖掘和人工智能领域扮演着重要的角色，在工程学和其他学科方面也有所影响。

这本书是关于数据学习的。在特定的时候，我们会得到一个结果值，通常是定量的（比如股票价格）或者是分类的（比如有心脏病或没有心脏病），我们的预测会基于一系列的特征（比如饮食、临床诊断）。我们会得到一组训练数据集，可以用来观察一个对象集（比如人）的输出结果和特征的测量值。利用这些数据，我们建立一个预测模型或者学习模型，这可以让我们对一些新的未知对象进行一些预测。一个好的学习模型可以精准地预测出结果。

表 1.1 从一封电子邮件中计算出字词的平均百分比。我们选取了一些字词来显示垃圾邮件和其他电子邮件的最大区别。

george you your hp free hpl ! our re edu remove

Spam

0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

上面的例子描述了监督式学习的学习方式，之所有叫做监督式，是因为它利用学习结果来引导学习过程。在非监督式学习中，我们只观察特征而不会对结果进行测量。我们的任务是描述数据时如何组织或者聚合的。这本书大部分将致力于介绍监督式学习，非监督式学习在这里不会涉及许多，它会在第14章介绍。

下面是本书将要讲到的一些实际学习问题的例子。

例1：垃圾邮件

这个例子的数据时来自于4601封电子邮件，这些邮件是用来预测一封邮件是否是垃圾邮件。目的是设计一个自动识别垃圾邮件的检测器，能够将垃圾邮件过滤出来，以免填满用户的邮箱。在这4601封邮件中，得到的结果（邮件类型）是，这是普通邮件还是垃圾邮件，而且还会得到57个常用词和标点的相对频率。这是一个监督式学习问题，它的结果分为普通邮件或者垃圾邮件。这种问题又叫做分类问题。

表1.1列出的字词显示了垃圾邮件和普通邮件之间的最大平均差别。

我们所使用的学习方式必须决定使用哪种特征以及如何使用，比如我们可能会用如下方式：

if (%george<0.6) & (%you >1.5) then spam

else email.

而另一种形式的方式可能是：

if (0.2·%you−0.3·%george)>0 then spam

else email.

对于这种问题，并不是所有的误差都是平等的；我们想要避免过滤掉普通邮件，而在这种情况下让垃圾邮件通过是不让人满意而是不严谨的。我们会在本书中针对此类学习问题讨论几种不同的学习方式。

图 1.1 前列腺癌数据的散点图矩阵。第一行显示了各预测因子的反馈情况。其中两项预测因子，svi和gleason进行了分类。

例2：前列腺癌

关于这个例子的数据（图1.1），来自于Stamey et al.的研究（1989），这项研究在97位即将接受根治性前列腺切除术的男性中，检测了前列腺特异性抗原水平（PSA）和一系列临床诊断之间的关联性。

为了从一系列测量值中预测PSA（lpsa），癌细胞量（lcavol），前列腺重量lweight，年龄，良性前列腺增生值lbph，精囊侵袭svi，荚膜渗透lcp，格里森评分gleason和格里森评分4或5百分比pgg45。图1.1是各变量的散点图矩阵。一些关于lpsa的统计是明显的，但是一个好的预测模型是很难用肉眼来构建的。

这是一个监督式学习问题，又叫做回归问题，因为结果指标是定量的。

图1.2 U.S.邮政信封上手写数字的示例。

例3：手写数字识别

这个例子的数据来源于美国信封上手写的邮编。每张图片都分割自5位的邮编，隔离单个数字。这些图片是16×16像素，八位的灰度图，每个像素从0到255按强度排列。图1.2显示了一些样本图片。

这些图片都有大约相等的大小和方向。目的是在16×16的像素矩阵中快速并准确地识别每一图片（0,1，···9）。如果够准确地话，这个算法可以用在信封自动分类上。这是一个分类问题，对于这类问题，每一误差都应保持较小值，以避免邮件分类错误。为了达到如此小的误差，一些邮件可以标明“未知”，然后由人工进行分类。

例4：DNA微阵列表达

DNA的意思是脱氧核糖核酸，是组成人体染色体最基本的物质。DNA微阵列通过测量基因中的mRNA（信使核糖核酸）数量来测量细胞中基因的表达。微阵列被认为是生物学上一项突破性的技术，它促进了对一次抽样细胞上千基因中同时进行定量分析。

这里说明了DNA微阵列的工作原理。把几千基因上的核苷酸序列印在载玻片上，用红色和绿色染料来标记目标样本和参考样本，每个都与载玻片上的DNA混合。通过荧光镜检查，每边混合的RNA的强度变量记录（红或绿）被标记了。结果是，几千个数字（比如-6到6）衡量着目标样本中每个基因相对于参考样本的表达水平。正数表示的是目标样本比参考样本有着更高的表达水平，负数则反过来。

将一系列DNA微阵列实验的表达值收集在一起组成了一组基因表达的数据集，每列表示一次实验。几千行表示的是单个基因，几十列表示的是样本：在图1.3给出的具体例子中，有6830个基因（行）和64个样本（列），为了清晰表述，随机选了100行进行展示。这张图以热图的方式显示数据集，从绿（负）到红（正）。这些样本来自于64位癌症和肿瘤患者。

这里所面临的挑战是理解基因和样本是如何组织在一起的。常见的问题有：

哪一个样本的基因表达谱与其他样本的最相似？
哪一个基因的样本表达谱与其他基因的最相似？
对于特定的癌细胞样本，特定的基因表达会高还是低？

我们可以将这个问题看做是一个回归问题，有两个分类预测变量，基因和样本，将响应变量作为表达水平。然而，将它看做是非监督式学习可能更有用。比如，对于上面的（a）问题，我们把样本看成二维空间的6830个点，将这些点用某种方式聚合。

图1.3 DNA微阵列数据：人体肿瘤6830个基因（行）的表达矩阵和64个样本（列）。只显示了100个随机样本。以热图方式显示，从亮绿色（负，欠表达）到亮红色（正，过度表达）。灰色区域是缺失数据。行列随机排列。

（PS:翻译有不到位或错误的地方，还请各位指正。）

统计学习基础（第二版）——引言相关推荐

小白学习：李航《统计学习方法》第二版第11章条件随机场
小白学习:李航<统计学习方法>第二版第11章条件随机场小白学习:李航<统计学习方法>第二版第11章条件随机场(一)----马尔科夫随机场马尔科夫随机场(Markov r ...
首发：李航老师的《统计学习方法》第二版的代码实现（Github标星过万！）
李航老师的<统计学习方法>第二版的代码实现更新完毕,本文提供下载.(黄海广) 李航老师编写的<统计学习方法>全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机. ...
李沐d2l《动手学深度学习》第二版——风格迁移源码详解
本文是对李沐Dive to DL<动手学深度学习>第二版13.12节风格迁移的源码详解,整体由Jupyter+VSCode完成,几乎所有重要代码均给出了注释,一看就懂.需要的同学可以在文末 ...
电信保温杯笔记——《统计学习方法（第二版）——李航》第17章潜在语义分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第17章潜在语义分析论文介绍单词向量空间话题向量空间话题向量空间文本在话题向量空间的表示从单词向量空间到话题向量空间的线 ...
李沐《动手学深度学习》第二版比赛2-Classify Leaves
李沐<动手学深度学习>第二版比赛2-Classify Leaves 我的偶像,李沐大神主讲的<动手学深度学习>(使用Pytorch框架,第一版使用的是MXNet框架)目前已经进 ...
TensorFlow 深度学习中文第二版·翻译完成
原文:Deep Learning with TensorFlow Second Edition 协议:CC BY-NC-SA 4.0 不要担心自己的形象,只关心如何实现目标.--<原则>, ...
TensorFlow 深度学习中文第二版（初稿）
TensorFlow 深度学习中文第二版第 1 章深度学习入门人工神经网络 ANN 如何学习? 神经网络架构深度学习框架总结第 2 章 TensorFlow 的首次观察 TensorFlow ...
电信保温杯笔记——《统计学习方法（第二版）——李航》第16章主成分分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第16章主成分分析介绍总体主成分分析基本思路直观解释定义主要性质主成分个数规范化变量样本主成分分析样本主成分的定义 ...
李沐《动手学深度学习》第二版 pytorch笔记1 环境搭建
李沐<动手学深度学习>第二版pytorch笔记1 搭建环境文章目录李沐<动手学深度学习>第二版pytorch笔记1 搭建环境此时尚有耐心虚拟环境搭建创建虚拟环境查看 ...
《精通labview教程——由浅入深的范例学习（第二版）》课后题答案
<精通labview教程--由浅入深的范例学习(第二版)>课后题答案,[美]John Essick著,[译]邓科等课后题答案偶数部分是教程自带答案,奇数题目是自制答案下载链接: 第一章 ...

统计学习基础（第二版）——引言

统计学习基础（第二版）——引言相关推荐

最新文章

热门文章