基尼系数

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasetsiris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target
from sklearn.tree import DecisionTreeClassifierdt_clf = DecisionTreeClassifier(max_depth=2, criterion="gini", random_state=42)
dt_clf.fit(X, y)
DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,max_features=None, max_leaf_nodes=None,min_impurity_decrease=0.0, min_impurity_split=None,min_samples_leaf=1, min_samples_split=2,min_weight_fraction_leaf=0.0, presort=False, random_state=42,splitter='best')
def plot_decision_boundary(model, axis):x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*200)).reshape(-1, 1),np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*200)).reshape(-1, 1),)X_new = np.c_[x0.ravel(), x1.ravel()]y_predict = model.predict(X_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.scatter(X[y==2,0], X[y==2,1])
plt.show()

模拟使用基尼系数划分

from collections import Counter
from math import logdef split(X, y, d, value):index_a = (X[:,d] <= value)index_b = (X[:,d] > value)return X[index_a], X[index_b], y[index_a], y[index_b]def gini(y):counter = Counter(y)res = 1.0for num in counter.values():p = num / len(y)res -= p**2return resdef try_split(X, y):best_g = float('inf')best_d, best_v = -1, -1for d in range(X.shape[1]):sorted_index = np.argsort(X[:,d])for i in range(1, len(X)):if X[sorted_index[i], d] != X[sorted_index[i-1], d]:v = (X[sorted_index[i], d] + X[sorted_index[i-1], d])/2X_l, X_r, y_l, y_r = split(X, y, d, v)g = gini(y_l) + gini(y_r)if g < best_g:best_g, best_d, best_v = g, d, vreturn best_g, best_d, best_v
best_g, best_d, best_v = try_split(X, y)
print("best_g =", best_g)
print("best_d =", best_d)
print("best_v =", best_v)
best_g = 0.5
best_d = 0
best_v = 2.45
X1_l, X1_r, y1_l, y1_r = split(X, y, best_d, best_v)
gini(y1_l)
0.0
gini(y1_r)
0.5
best_g2, best_d2, best_v2 = try_split(X1_r, y1_r)
print("best_g =", best_g2)
print("best_d =", best_d2)
print("best_v =", best_v2)
best_g = 0.2105714900645938
best_d = 1
best_v = 1.75
X2_l, X2_r, y2_l, y2_r = split(X1_r, y1_r, best_d2, best_v2)
gini(y2_l)
0.1680384087791495
gini(y2_r)
0.04253308128544431

百面机器学习——svm基尼系数寻找最优划分相关推荐

  1. Python机器学习:决策树003使用信息熵寻找最优划分

    #使用信息熵寻找最优划分 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets iris = ...

  2. 机器学习网格搜索寻找最优参数

    整理一下前阶段复习的关于网格搜索的知识: 程序及数据 请到github 上 下载 GridSearch练习 网格搜索是将训练集训练的一堆模型中,选取超参数的所有值(或者代表性的几个值),将这些选取的参 ...

  3. sklearn学习-SVM例程总结3(网格搜索+交叉验证——寻找最优超参数)

    网格搜索+交叉验证--寻找最优超参数 1548962898@qq.com 连续三天写了三篇博客,主要是为了尽快了解机器学习中算法以外的重要知识,这些知识可以迁移到每一个算法中,或许说,这些知识是学习并 ...

  4. 百面机器学习—4.SVM模型基础知识

    文章目录 引言 一.间隔与支持向量 1.什么是线性可分? 2.什么是超平面?什么是最大间隔超平面? 3.什么是支撑向量? 4.SVM最优化问题 二.对偶问题 1.约束条件下的目标函数如何求解最优化问题 ...

  5. 百面机器学习03-经典算法

    01 支持向量机 支持向量机 (Support Vector Machine, SVM)是众多监督学习万法中十分出色的一种,几乎所有讲述经典机器学习万洼的教材都会介绍 . 关于 SVM,流传着一个关于 ...

  6. 个人面试问答题知识库(一)百面机器学习篇

    第二篇(基础模型篇)已更新!        在前段时间的校招应聘经历中,我发现有时候即使面试官问的问题基本都回答上来了,最后还是没有通过面试,这固然跟自己是非科班.没有论文和相关实习经历有关,但自己的 ...

  7. 百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结

    文章目录 一.总结K均值算法步骤 二.如何合理选择K值? 三.K均值算法的优缺点是什么? 四.如何对K均值算法进行调优? 五.EM算法解决什么问题? 六.EM算法流程是什么? 六.EM算法能保证收敛嘛 ...

  8. 美亚畅销的百页机器学习入门书,不止简单易懂

    我与"机器学习"的初次邂逅是在5年前,那时我刚刚决定于新加坡南洋理工大学攻读计算机博士学位.比起计算机学院的主流课程,如数据库.软件开发.嵌入式系统等,"机器学习&quo ...

  9. 百面机器学习02-模型评估

    评估指标的局限性 场景描述: 在模型评估过程中,分类问题.排序问题.回归问题往往需要使用不同的指标进行评估 .在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能 . 如果不能合理地运用评估指 ...

  10. 百面机器学习01-特征工程

    1:特征归一化 场景描述: 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性.例如,分析一个人的身高和体重对健康的影响,如果使用米(m )和千克(kg)作为单位 ...

最新文章

  1. 一周的微信公众平台接口开发总结
  2. flex java 开发环境搭建_Ubuntu Linux下Flex 4开发环境的搭建
  3. python自学步骤-小白刚入门Python,学完基础后,接下来的学习步骤!
  4. 路飞学院python官网-路飞学院-Python爬虫实战密训班-第1章
  5. u-boot分析(八)----串口初始化
  6. 微服务——最热门的架构
  7. Linux 命令(15)—— umask 命令(builtin)
  8. pulseaudio数据流框图
  9. Dojo笔记(较旧)
  10. px和毫米的换算_关于PX像素、PT点数、CM厘米、MM毫米之间的换算[转]
  11. Cookie和Session
  12. 如何保证战略落地_【管理前沿】保障战略规划落地的三大措施
  13. IDEA添加oracle数据库时不显示数据表
  14. 21.12.19初识C语言
  15. html5 运动轨迹绘画,冷知识|简单几步教你用跑步轨迹绘画,用跑画刷爆你的朋友圈!...
  16. 区块链学习笔记二之区块链的加密技术
  17. 7-23 清点代码库(简洁AC+多方法)
  18. RNN学习笔记3-LSTM
  19. 【网络安全】域名生成算法(DGA)基础总结
  20. uniapp 微信分享(安卓)

热门文章

  1. 关于local storage及session storage 应用问题
  2. dapper利用DynamicParameters构建动态参数查询
  3. 怎么用Excel来批量生成SQL语句
  4. javascript获取网址参数
  5. vb调用存储过程的方法
  6. Linux操作系统常用小操作
  7. 【已解决】bootstrap table 参数后台获取不到
  8. 悼念512汶川大地震遇难同胞——珍惜现在,感恩生活(Hdu2191)-多重背包
  9. 第六章 实验报告 (函数与宏定义)
  10. PL/SQL Developer图形化窗口创建数据库(表空间和用户)以及相关查询sql