癌症分类预测-良/恶性乳腺癌肿瘤预测
数据介绍
- https://archive.ics.uci.edu/ml/machine-learning-databases/https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
数据描述
(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤
相关的医学特征,最后一列表示肿瘤类型的数值。
(2)包含16个缺失值,用”?”标出。
分析
- 获取数据
- 基本数据处理
- 缺失值处理
- 确定特征值 目标值
- 分割数据
- 特征工程(标准化)
- 机器学习(逻辑回归)
- 模型评估
代码实现
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression#ssl报错的话就导入
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
# 1.获取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape','Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin','Normal Nucleoli', 'Mitoses', 'Class']data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=names)
data.head()
上述代码可以直接导入先看看结果,因为列名不对 所以才用names指定列名
# 2.基本数据处理
# 2.1 缺失值处理
data = data.replace(to_replace="?", value=np.NaN)
data = data.dropna()
# 2.2 确定特征值,目标值
x = data.iloc[:, 1:10]
x.head()
y = data["Class"]
y.head()
# 2.3 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
data.ioc[:,1:10] 解释
:表示所有行
1:10 表示1到10列
# 3.特征工程(标准化)
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
以上是对数据进行标准化处理
# 4.机器学习(逻辑回归)
estimator = LogisticRegression()
estimator.fit(x_train, y_train)
采用逻辑回归 将训练数据 和 训练的目标值y 传进去
自动出结果
# 5.模型评估
y_predict = estimator.predict(x_test)
y_predict
estimator.score(x_test, y_test)
用测试数据苹果预测结果!
癌症分类预测-良/恶性乳腺癌肿瘤预测相关推荐
- 基于逻辑回归的癌症分类预测-良/恶性乳腺癌肿瘤预测
简介:逻辑回归是属于机器学习里面的监督学习,它是以回归的思想来解决分类问题的一种非常经典的二分类分类器. 流程分析: 获取数据 数据处理模块(处理缺失值) 数据集划分 特征工程(标准化) 逻辑回归预估 ...
- 一个经典机器学习案例——良/恶性乳腺癌肿瘤预测
良/恶性乳腺癌肿瘤预测 良/恶性乳腺癌肿瘤预测问题是一个十分经典的机器学习问题,简单来说我们需要利用肿块厚度和细胞尺寸这两个特征来判断肿瘤的类型(良性或者是恶性).数据的下载网站如下:http://n ...
- 《Python machine learning and practice》—— 良\恶性乳腺癌肿瘤预测
数据集 良\恶性乳腺癌肿瘤预测数据集 代码分析 第三方库文件 from sklearn.linear_model import LogisticRegression #导入sklearn中的逻辑斯蒂回 ...
- 《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第1章 简介篇 学习笔记(三)“良/恶性乳腺癌肿瘤预测”总结
目录 "良/恶性乳腺癌肿瘤预测" 1.机器学习的三个关键术语 (1)任务 (2)经验 (3)性能 2.机器学习的学习过程 (1)观察测试集数据分布 (2)初始化二类分类器 (3)训 ...
- sklearn逻辑回归案例分析 《良/恶性乳腺癌肿瘤预测》
由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...
- 《python机器学习及实战》学习笔记ch1之良/恶性乳腺癌肿瘤预测
1.文章说明 本系列文章都是自己学习<python机器学习及实战>这本书时所做的一些笔记而已,仅为学习作参考. 2.数据集地址: 数据地址是书中给出的数据下载地址: https://pan ...
- 【机器学习】:sklearn逻辑回归案例分析 《良/恶性乳腺癌肿瘤预测》
由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...
- One_良恶性乳腺癌肿瘤预测
Author:龙箬 Data Science and Big Data Technology Change the world with data! CSDN@weixin_43975035 每朵云都 ...
- 良/恶性乳腺癌肿瘤预测
1. Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数: itertools.count():会创建一个无限的迭代器,只能按Ctrl+C退出 itertools.cycl ...
- 机器学习实例(一)良/恶性乳腺癌肿瘤预测
数据描述 Number of Instances: 699(as of 15 July 1922) Number of Attributes: 10 plus the class attribute ...
最新文章
- 番茄工作法:番茄时间管理方法与番茄工作法软件图解提高工作效率
- JVM:对象的实例化、内存布局与访问定位
- React Native windows环境安装遇到的坑
- springcloud hystrix概述(一)
- 教师教学质量评价系统c语言,教师课堂教学评价大全_浅谈C语言课堂教学方法
- 减少访问量_Nginx服务器高性能优化轻松实现10万并发访问量
- 网络维护与管理作业3
- BFS解决连同块问题
- Beginning Python chapter 3: Working with strings
- JS入门必备基础知识(适合小白)
- vue-JsMind思维导图实现(包含鼠标右键自定义菜单)
- 天正的计算机快捷命令大全,天正建筑快捷键大全:天正建筑cad快捷键命令大全...
- “粤省事”春运专区上线 31项服务让回家更便捷
- 杀毒软件网络测试环境,杀毒软件开学摸底测试 360杀毒基础最牢
- 杀死一只知更鸟 影评
- 螺旋线的画法---matlab代码
- 电路b-3—06刘晏辰
- 开发微信小程序都需要哪些资质?
- 从事GIS开发多年,2017年对GIS行业的心得,尤其对三维GIS的理解 1
- 注册中心Consul
热门文章
- 设某一个班共有N(N=20)名学生,期末考试5门课程,请编一程序评定学生的奖学金,要求打印输出一、二等奖学金学生的学号、姓名和各门课成绩。
- Android自定义控件(二)
- matlab如何创建稀疏矩阵,matlab稀疏矩阵创建及实例
- 单元测试/白盒测试/黑盒测试
- 我让 ChatGPT 化身为全知全能的文档小助理,啥姿势她都会......
- 运营商大数据精准获客是怎么做到的?企业如何以低成本获取精准客户?
- GAN︱生成模型学习笔记(运行机制、NLP结合难点、应用案例、相关Paper)
- Win7版IE10浏览器正式版官方下载地址
- 基于Java音乐网站的设计与实现
- XP安装SQLSERVER企业版