Author:龙箬
Data Science and Big Data Technology
Change the world with data!
CSDN@weixin_43975035
每朵云都下落不明,每盏月亮都不知所终。

机器学习案例1----良恶性乳腺癌肿瘤预测

本实验使用到的数据集如下: breast-cancer-data.
提取码:girm

参考代码如下:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
#注意修改路径
df_train=pd.read_csv('C:\\Users\\lenovo\\Desktop\\PYTHON机器学习及实践\\breast-cancer-train.csv')
df_test=pd.read_csv('C:\\Users\\lenovo\\Desktop\\PYTHON机器学习及实践\\breast-cancer-test.csv')
#选取'Clump Thickness'与'Cell Size'作为特征,构建测试集中的正负分类样本
df_test_negative=df_test.loc[df_test['Type']==0][['Clump Thickness','Cell Size']]
df_test_positive=df_test.loc[df_test['Type']==1][['Clump Thickness','Cell Size']]
# matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, data=None, **kwargs)
# x,y——设置点的位置
# s——点的大小
# c——点的颜色
# marker——点的形状
# cmap——可以用来控制颜色渐变,具体用法,见例子http://blog.sina.com.cn/s/blog_c39df0460102xifx.html
# norm——亮度
# vmin,vmax——标准化亮度
# alpha——点的透明度,透明度设置的好能够使图好看
# linewidths,verts,edgcolors——点边缘线宽,(x,y)的序列,边缘线颜色
# **kwargs——以字典方式输入参数
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],s=100,c='blue',marker='o')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],s=100,c='yellow',marker='x')plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

#利用numpy中的random函数随机采样直线的截距和系数
intercept=np.random.random([1])
coef=np.random.random([2])
lx=np.arange(1,12)
ly=(-intercept -lx*coef[0])/coef[1]
plt.plot(lx,ly,c='red')

from sklearn.linear_model import LogisticRegression
lr =LogisticRegression()
#使用前10条训练样本学习直线的系数和截距
lr.fit(df_train[['Clump Thickness','Cell Size']][:10],df_train['Type'][:10])
print('Testing accuracy (10 training samples):',lr.score(df_test[['Clump Thickness','Cell Size']],df_test['Type']))

Testing accuracy (10 training samples): 0.8685714285714285

intercept=lr.intercept_
coef=lr.coef_[0,:]
#原本这个分类面应该是lx*coef[0]+ly*coef[1]+intercept=0
ly=(-intercept -lx*coef[0])/coef[1]
plt.plot(lx,ly,c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],s=100,c='blue',marker='o')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],s=100,c='yellow',marker='x')plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

#使用所有训练样本学习直线的系数和结局
lr.fit(df_train[['Clump Thickness','Cell Size']],df_train['Type'])
print('Testing accuracy (all training samples):',lr.score(df_test[['Clump Thickness','Cell Size']],df_test['Type']))

Testing accuracy (all training samples): 0.9371428571428572

intercept=lr.intercept_
coef=lr.coef_[0,:]
#原本这个分类面应该是lx*coef[0]+ly*coef[1]+intercept=0
ly=(-intercept -lx*coef[0])/coef[1]
plt.plot(lx,ly,c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],s=100,c='blue',marker='o')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],s=100,c='yellow',marker='x')plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()


可以看出对于本实验,当使用全部训练样本进行训练时比使用前10条训练样本得分高出7%
参考致谢:
范淼,李超.Python机器学习及实践——从零开始通往Kaggle竞赛之路

如有侵权,请联系侵删
需要本实验源数据及代码的小伙伴请联系QQ:2225872659

One_良恶性乳腺癌肿瘤预测相关推荐

  1. 《Python machine learning and practice》—— 良\恶性乳腺癌肿瘤预测

    数据集 良\恶性乳腺癌肿瘤预测数据集 代码分析 第三方库文件 from sklearn.linear_model import LogisticRegression #导入sklearn中的逻辑斯蒂回 ...

  2. 一个经典机器学习案例——良/恶性乳腺癌肿瘤预测

    良/恶性乳腺癌肿瘤预测 良/恶性乳腺癌肿瘤预测问题是一个十分经典的机器学习问题,简单来说我们需要利用肿块厚度和细胞尺寸这两个特征来判断肿瘤的类型(良性或者是恶性).数据的下载网站如下:http://n ...

  3. 《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(三)“良/恶性乳腺癌肿瘤预测”总结

    目录 "良/恶性乳腺癌肿瘤预测" 1.机器学习的三个关键术语 (1)任务 (2)经验 (3)性能 2.机器学习的学习过程 (1)观察测试集数据分布 (2)初始化二类分类器 (3)训 ...

  4. sklearn逻辑回归案例分析 《良/恶性乳腺癌肿瘤预测》

    由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...

  5. 《python机器学习及实战》学习笔记ch1之良/恶性乳腺癌肿瘤预测

    1.文章说明 本系列文章都是自己学习<python机器学习及实战>这本书时所做的一些笔记而已,仅为学习作参考. 2.数据集地址: 数据地址是书中给出的数据下载地址: https://pan ...

  6. 【机器学习】:sklearn逻辑回归案例分析 《良/恶性乳腺癌肿瘤预测》

    由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...

  7. 良/恶性乳腺癌肿瘤预测

    1. Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数: itertools.count():会创建一个无限的迭代器,只能按Ctrl+C退出 itertools.cycl ...

  8. 机器学习实例(一)良/恶性乳腺癌肿瘤预测

    数据描述 Number of Instances: 699(as of 15 July 1922) Number of Attributes: 10 plus the class attribute ...

  9. 机器学习实战(1)——线性分类器+Logistic回归解决良/恶性乳腺癌肿瘤预测问题

    本文参考书<Python机器学习及实践>(范淼 李超 编著) 理论分析 线性分类器 Logistic回归 随机梯度上升 略 数据分析 代码分析 导入数据 数据包文件名为breast-can ...

最新文章

  1. 切诺夫界证明(Chernoff bound)
  2. CNN卷积神经网络(吴恩达《卷积神经网络》笔记一)
  3. 大神 20 年的专业数据分析心法全都在这里了
  4. python xrange_Python学习中的知识点(range和xrange)
  5. java 替换 rn_RN热更新之Android篇
  6. 阿里 AI「一对多」挑战人类律师;谷歌或将推出自研手机和电脑芯片;JavaScript诞生25周年|极客头条...
  7. Javascript基础系列之(五)条件语句(if条件语句)
  8. linux cuda 安装目录,Ubuntu16.04 CUDA和GPU的最简最全安装方案及常见问题解决方法,G...
  9. 自学-Linux-老男孩Linux77期-day3
  10. 利用计算机计算问题的案例,两个基于计算思维培养的高中信息技术教学案例
  11. 安卓电视盒子上 安装 Ubuntu 20.04 并安装 certbot 获取证书
  12. php调用笛风接口,优雅的用PHP来实现解析抖音无水印视频!
  13. python中汉字如何转拼音?(PyPinyin 的基础用法)
  14. python多任务爬虫(四、协程池实现爬虫)
  15. DXP导入网络报表的方法
  16. cocos2dx游戏中添加背景音乐、音效
  17. 标准c语言程序文件名后缀为,CCS_C语言编程
  18. 腾讯安全发布《2020年上半年手机安全报告》,揭示手机安全四大趋势
  19. [总结] 半监督学习方法: 协同训练类协同训练(Co-training)
  20. linux 进程 signal,c/c++ linux 进程间通信系列1,使用signal,kill

热门文章

  1. Spring图文详细教学笔记
  2. NS3安装步骤【MAC系统】
  3. SQLSERVER中的 CEILING函数和 FLOOR函数
  4. 腾讯15年间打败的竞争对手
  5. 免费开源软件专题(2): 10大图形图像编辑处理软件
  6. 农地里怒放的生命:常锋植保无人机
  7. 组合和聚合举例说明_聚合与组合的区别
  8. [游戏策划] 读书笔记
  9. JZOJ3948. 【省常中JSOI模拟】Hanoi 塔
  10. window环境下部署hbase(仅测试环境)