目录

“良/恶性乳腺癌肿瘤预测”

1、机器学习的三个关键术语

(1)任务

(2)经验

(3)性能

2、机器学习的学习过程

(1)观察测试集数据分布

(2)初始化二类分类器

(3)训练定量样本

(4)训练全部样本


“良/恶性乳腺癌肿瘤预测”

1、机器学习的三个关键术语

(1)任务

“良/恶性乳腺癌肿瘤预测”的问题属于二分类任务,待预测的类别分别是良性乳腺癌肿瘤和恶性乳腺癌肿瘤。

通常使用离散的整数来代表类别,“肿瘤类型”一列列出了肿瘤的类型:0代表良性肿瘤,1代表恶性肿瘤

表1-1 威斯康星大学乳腺癌肿瘤部分数据
  肿块厚度 细胞尺寸 肿瘤类型   肿块厚度 细胞尺寸 肿瘤类型
0 1 1 0 3 8 8 0
1 4 4 0 4 1 1 0
2 1 1 0 5 10 10 1

(2)经验

“良/恶性乳腺癌肿瘤预测”的问题所使用的经验有两个维度的特征:肿块厚度(Clump Thickness)和细胞尺寸(Ceil Size)。除此之外,还有对应肿瘤类型。而且,每一行都是一个独立的样本。

备注:这里的肿块厚度和细胞尺寸都不像是真正意义的数据,更像是级别的划分。事实上,的确是这样。在大多数情况下,都无法使用最原始的数据进行机器学习任务,更多的需要对数据进行预处理。

通常把这种既有特征,同时也带有目标/标记的数据集称作训练集,用来训练学习系统。这里拥有524条独立的用于训练的乳腺癌肿瘤样本数据。

(3)性能

“良/恶性乳腺癌肿瘤预测”的问题,使用准确性作为衡量学习模型/系统性能的指标,并且用于测试的乳腺癌肿瘤样本数据有175条。

2、机器学习的学习过程

(1)观察测试集数据分布

观察一下待测数据集中175条肿瘤样本在二维特征空间的分布情况,X代表恶性肿瘤,O代表良性肿瘤

(2)初始化二类分类器

随机初始化一个二类分类器,这个分类器使用一条直线来划分良/恶性肿瘤。决定这条直线走向的有两个因素:直线的斜率和截距。这些统一称为模型的参数,也是分类器需要通过学习从训练数据中得到的。

最初,随机初始化参数的分类器的性能表现如下:

(3)训练定量样本

随着使用一定量的训练样本,分类器所表现的性能有了大幅度的提升。

(4)训练全部样本

当学习10条训练样本时,分类器的性能改进一些,在测试集上的分类准确性为86.9%;继续学习所有训练样本之后,分类器的性能进一步提升,在测试集上的分类准确性最终达到93.7%。

本地输出:

Testing accuracy (10 training samples): 0.8685714285714285
Testing accuracy (all training samples): 0.9371428571428572

《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(三)“良/恶性乳腺癌肿瘤预测”总结相关推荐

  1. 《Python机器学习及实践——从零开始通往Kaggle竞赛之路》学习笔记(1)——简介篇

    机器学习的结构 #mermaid-svg-HxJdCSW6sVlBmYVP {font-family:"trebuchet ms",verdana,arial,sans-serif ...

  2. 《python机器学习及实践-从零开始通往kaggle竞赛之路》——代码整理

    代码目录 2.1 监督学习经典模型 2.1.1 分类学习 2.1.1.1 线性分类器 2.1.1.2 支持向量机 2.1.1.3 朴素贝叶斯 2.1.1.4 K近邻 2.1.1.5&2.1.1 ...

  3. Python机器学习及实践+从零开始通往Kaggle竞赛之路

    内容简介 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习.数 ...

  4. Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)

    文章目录 第一章 简介篇 1.1 机器学习综述 1.2 Python 编程库介绍 1.3 Python编程基础 第二章 基础篇 2.1 监督学习经典模型 2.1.1 分类学习 2.1.2 回归预测 2 ...

  5. 一日一书:机器学习及实践——从零开始通往kaggle竞赛之路

    过去近二十年,计算机科学的发展是被大量的数据推动的.海量数据提供了认识世界的新视角,同时也带来了分析和理解数据的巨大挑战.如何从数据中获得知识,并利用这些知识帮助设计和创造更满足用户需求的产品,希望将 ...

  6. python机器学习及实践_机器学习入门之《Python机器学习及实践:从零开始通往Kaggle竞赛之路》...

    本文主要向大家介绍了机器学习入门之<Python机器学习及实践:从零开始通往Kaggle竞赛之路>,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. <Python 机 ...

  7. 一个经典机器学习案例——良/恶性乳腺癌肿瘤预测

    良/恶性乳腺癌肿瘤预测 良/恶性乳腺癌肿瘤预测问题是一个十分经典的机器学习问题,简单来说我们需要利用肿块厚度和细胞尺寸这两个特征来判断肿瘤的类型(良性或者是恶性).数据的下载网站如下:http://n ...

  8. 《python机器学习及实战》学习笔记ch1之良/恶性乳腺癌肿瘤预测

    1.文章说明 本系列文章都是自己学习<python机器学习及实战>这本书时所做的一些笔记而已,仅为学习作参考. 2.数据集地址: 数据地址是书中给出的数据下载地址: https://pan ...

  9. 《Python machine learning and practice》—— 良\恶性乳腺癌肿瘤预测

    数据集 良\恶性乳腺癌肿瘤预测数据集 代码分析 第三方库文件 from sklearn.linear_model import LogisticRegression #导入sklearn中的逻辑斯蒂回 ...

最新文章

  1. 自学笔记——2.字符串的切片、遍历、查找字符
  2. 25 iOS performance TipsTricks 笔记
  3. onKeyPress与。 onKeyUp和onKeyDown
  4. Linux进阶:DNS详解
  5. python 乱码转码_Python解决乱码问题
  6. python中的sorted是什么意思_python中sort与sorted区别
  7. Selenium自动化获取WebSocket信息
  8. Python2.7.16安装(Win10)
  9. HTML5 —— 本地存储
  10. Python模块学习 ---- zlib 数据压缩
  11. Computer Vision阅读文章总结纪要
  12. 190320每日一句
  13. Optional容器类
  14. 简单的开源日志Log4D delphi 6---delphi xe 10全可用
  15. Android TextToSpeech简单使用
  16. python爬虫之通用爬虫和聚焦爬虫
  17. 中英文颜色对照表(转)
  18. 如何换ionic里面的图标
  19. python 加速度_「加速度公式」加速度公式1 - seo实验室
  20. Oracle 18c:拉里·埃里森亲自支招,数据库自动化之后,DBA何去何从?

热门文章

  1. 后ImageNet时代李飞飞视觉基因组重磅计划
  2. 两种不同结构的永磁永磁同步电机特点说明——表贴式和内置式
  3. 三维薄板样条,用于三维模型变形(c++)
  4. js插件chosen-select后台交互下拉框选择
  5. matlab中break和continue
  6. 输油管道 (Standard IO)
  7. Shader常用函数属性
  8. swoole 项目实战——实现简单聊天室
  9. Linux设备与驱动学习之----什么是设备
  10. 【6.20校内test】