良/恶性乳腺癌肿瘤预测

1. Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数：

itertools.count():会创建一个无限的迭代器，只能按Ctrl+C退出
itertools.cycle():会把传入的序列无限重复下去,同样停不下来
itertools.repeat(‘A’, 10):负责把一个元素无限重复下去，不过如果提供第二个参数就可以限定重复次数。
无限序列只有在for迭代时才会无限地迭代下去，如果只是创建了一个迭代对象，它不会事先把无限个元素生成出来，事实上也不可能在内存中创建无限多个元素。无限序列虽然可以无限迭代下去，但是通常我们会通过takewhile()等函数根据条件判断来截取出一个有限的序列：ns = itertools.takewhile(lambda x: x <= 10, natuals)
itertools.chain():可以把一组迭代对象串联起来，形成一个更大的迭代器：
itertools.groupby():把迭代器中相邻的重复元素挑出来放在一起

详细参考：itertools

2. pandas中的loc用法

index = list(itertools.product(['Ada','Quinn','Violet'],['Comp','Math','Sci']))
headr = list(itertools.product(['Exams','Labs'],['I','II']))
indx = pd.MultiIndex.from_tuples(index,names=['Student','Course'])
cols = pd.MultiIndex.from_tuples(headr)
data = [[70+x+y+(x*y)%3 for x in range(4)] for y in range(9)]
df = pd.DataFrame(data,indx,cols)
print df,'\n','........................................'
All = slice(None)
print All,'\n','......................................'
print df.loc['Violet'],'\n','..............................'
print df.loc[(All,'Math'),All],'\n','..............................'
print df.loc[(slice('Ada','Quinn'),'Math'),All],'\n','..............................'
print  df.loc[(All,'Math'),('Exams')],'\n','..............................'
print df.loc[(All,'Math'),(All,'II')],'\n','..............................'

运行结果：

               Exams     Labs    I  II    I  II
Student Course
Ada     Comp      70  71   72  73Math      71  73   75  74Sci       72  75   75  75
Quinn   Comp      73  74   75  76Math      74  76   78  77Sci       75  78   78  78
Violet  Comp      76  77   78  79Math      77  79   81  80Sci       78  81   81  81
........................................
slice(None, None, None)
......................................Exams     Labs    I  II    I  II
Course
Comp      76  77   78  79
Math      77  79   81  80
Sci       78  81   81  81
..............................Exams     Labs    I  II    I  II
Student Course
Ada     Math      71  73   75  74
Quinn   Math      74  76   78  77
Violet  Math      77  79   81  80
..............................Exams     Labs    I  II    I  II
Student Course
Ada     Math      71  73   75  74
Quinn   Math      74  76   78  77
..............................I  II
Student Course
Ada     Math    71  73
Quinn   Math    74  76
Violet  Math    77  79
..............................Exams LabsII   II
Student Course
Ada     Math      73   74
Quinn   Math      76   77
Violet  Math      79   80
..............................

3. 完全代码：

import pandas as pd  # 导入pandas工具包，并且更名为pd# 绘制良/恶性乳腺癌肿瘤测试集数据分布# 注意这里的路径分隔符，windows和linux是不同的，统一用格式：r+'路径'
df_train = pd.read_csv(r'C:\Users\LiLong\Desktop\kaggle_lea\Breast-Cancer\breast_cancer_train.csv')
df_test = pd.read_csv(r'C:\Users\LiLong\Desktop\kaggle_lea\Breast-Cancer\breast_cancer_test.csv')
#print df_train# 选取'Clump Thickness', 'Cell Size'作为特征,构建测试集中的正负样例
df_test_negative = df_test.loc[df_test['Type'] == 0][['Clump Thickness', 'Cell Size']]
df_test_positive = df_test.loc[df_test['Type'] == 1][['Clump Thickness', 'Cell Size']]
#print df_test_negativeimport matplotlib.pyplot as plt
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

# 随机参数下的二类分类器
import numpy as np
# 随机采样直线的截距和系数
intercept = np.random.random([1])
coef = np.random.random([2])
lx = np.arange(0, 12)
ly = (-intercept - lx * coef[0]) / coef[1]
# 绘制一条随机直线
plt.plot(lx, ly, c='yellow')
# 绘制样例散点图
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

[ 0.2154933   0.95448152]

# 导入sklearn中的逻辑斯地回归分类器
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()#使用前10条数据训练样本学习直线的系数和截距
lr.fit(df_train[['Clump Thickness', 'Cell Size']][:10], df_train['Type'][:10])
print 'Testing accuracy (10 training samples):', lr.score(df_test[['Clump Thickness', 'Cell Size']], df_test['Type'])

Testing accuracy (10 training samples): 0.868571428571 # 准确率

# 使用10条训练样本得到的二分类器
lr2 = LogisticRegression()
# 截距和系数由sklearn.linear_model中的LogisticRegression确定
intercept = lr.intercept_ # 得到截距
print intercept
coef = lr.coef_[0, :]
print coef
ly = (-intercept - lx * coef[0]) / coef[1] # 由ax+by+c=0  =》 y=-（a/b）x-c/b
plt.plot(lx, ly, c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

[-1.51522787]
[-0.10721332 0.48314152]

#  使用所有的训练样本得到的二类分类器lr2 = LogisticRegression()
# 使用所有的训练样本学习直线的系数和截距
lr2.fit(df_train[['Clump Thickness', 'Cell Size']], df_train['Type'])
print 'Testing accuracy (all training samples):', lr2.score(df_test[['Clump Thickness', 'Cell Size']], df_test['Type'])

Testing accuracy (all training samples): 0.937142857143

intercept = lr2.intercept_
coef = lr2.coef_[0, :]
ly = (-intercept - lx * coef[0]) / coef[1]
plt.plot(lx, ly, c='blue')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

这里用的是jupyter运行的代码。

源代码：《python机器学习及实践》

源代码下载

良/恶性乳腺癌肿瘤预测相关推荐

《Python机器学习及实践》----良/恶性乳腺癌肿瘤预测
本片博客是根据<Python机器学习及实践>一书中的实例,所有代码均在本地编译通过.数据为从该书指定的百度网盘上下载的. 代码片段: import pandas as pd import ...
《Python machine learning and practice》—— 良\恶性乳腺癌肿瘤预测
数据集良\恶性乳腺癌肿瘤预测数据集代码分析第三方库文件 from sklearn.linear_model import LogisticRegression #导入sklearn中的逻辑斯蒂回 ...
《python机器学习及实战》学习笔记ch1之良/恶性乳腺癌肿瘤预测
1.文章说明本系列文章都是自己学习<python机器学习及实战>这本书时所做的一些笔记而已,仅为学习作参考. 2.数据集地址: 数据地址是书中给出的数据下载地址: https://pan ...
《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第1章简介篇学习笔记（三）“良/恶性乳腺癌肿瘤预测”总结
目录 "良/恶性乳腺癌肿瘤预测" 1.机器学习的三个关键术语 (1)任务 (2)经验 (3)性能 2.机器学习的学习过程 (1)观察测试集数据分布 (2)初始化二类分类器 (3)训 ...
一个经典机器学习案例——良/恶性乳腺癌肿瘤预测
良/恶性乳腺癌肿瘤预测良/恶性乳腺癌肿瘤预测问题是一个十分经典的机器学习问题,简单来说我们需要利用肿块厚度和细胞尺寸这两个特征来判断肿瘤的类型(良性或者是恶性).数据的下载网站如下:http://n ...
sklearn逻辑回归案例分析《良/恶性乳腺癌肿瘤预测》
由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...
【机器学习】：sklearn逻辑回归案例分析《良/恶性乳腺癌肿瘤预测》
由于对逻辑回归等算法做到深刻理解有点难,目前还在学习中,尽管有现成的模型库,我们还是需要对模型的底层实现有一个了解.这里先记录一下如何利用sklearn的LogisticRegression来做一个简 ...
One_良恶性乳腺癌肿瘤预测
Author:龙箬 Data Science and Big Data Technology Change the world with data! CSDN@weixin_43975035 每朵云都 ...
机器学习实例（一）良/恶性乳腺癌肿瘤预测
数据描述 Number of Instances: 699(as of 15 July 1922) Number of Attributes: 10 plus the class attribute ...

良/恶性乳腺癌肿瘤预测

1. Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数：

2. pandas中的loc用法

3. 完全代码：

良/恶性乳腺癌肿瘤预测相关推荐

最新文章

热门文章