Logistic 知识点


linear_model.LogisticRegression
函数
Sigmoid函数
g(z) = 1/(1+e^-z)
z = θ^(T) x
g(z) 就是Logistic的一个标签值(概率)

几率概念(二分类模型)
p/(1-p)
在Logistic中 对数几率log(p/1-p) = θ^(T) x

优点
拟合效果好
逻辑回归计算快

损失函数
衡量θ优劣的评估指标(没有‘求解参数’就没有损失函数 如KNN、决策树无损失函数)

损失函数由极大似然估计求出(记得加负号)

正则化
L1:J(θ)+∑|θj|
L2:J(θ)+根号∑(θj)^2

参数
penalty : ‘l1’ ‘l2’
C(0,1) :控制正则化程度的超参数 C越小越稀疏 正则化程度越大

LR中的特征工程
不用PCA以及SVD 会抹除特种的可解释性

使用embedded(嵌入法)
利用模型训练结果对特征进行处理

sklearn.feature_selection.SelectFromModel

estimator

object
用来构建变压器的基本估算器。
既可以是拟合的(如果prefit设置为True),也可以是不拟合的估计量。
拟合后,估算器必须具有 feature_importances_或coef_属性

threshold: str, float, optional default None
用于特征选择的阈值。
保留重要性更高或相等的要素,而其他要素则被丢弃。
如果为“中位数”(分别为“平均值”),
则该threshold值为要素重要性的中位数(分别为平均值)。
也可以使用缩放因子(例如,“ 1.25 *平均值”)。
如果为None且估计器的参数惩罚显式或隐式设置为l1(例如Lasso),
则使用的阈值为1e-5。
否则,默认使用“均值”。

prefit: bool, default False
预设模型是否期望直接传递给构造函数。
如果为True,transform必须直接调用和
SelectFromModel不能使用cross_val_score, GridSearchCV而且克隆估计类似的实用程序。
否则,使用训练模型fit,然后transform进行特征选择。

norm_order: 非零 int, inf, -inf, default 1
在估算器threshold的coef_属性为维度2 的情况下,
用于过滤以下系数矢量的范数的顺序 。

max_features:int or None, optional
要选择的最大功能数。
若要仅基于选择max_features,请设置threshold=-np.inf。

Attributes

estimator_:一个估算器
用来建立变压器的基本估计器。
只有当一个不适合的估计器传递给SelectFromModel时,
才会存储这个值,即当prefit为False时。

threshold_:float
用于特征选择的阈值。

embedded简单代码
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC

RFC_ = RFC(n_estimators =10,random_state=0)#估计器

X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征
只能够分到大约0.001的feature_importances_

X_embedded.shape

也可以用包装法、系数累加法等方法对特征进行筛选

Logistic的重要参数

penalty

C

max_iter
走多少步 类似于SGD中的step
LR.n_iter_ 显示走多少步达到拟合

多元 VS 二元回归
multi_class
‘ovr’ 二分类
‘multinomial’ 多分类
‘auto’ 自动判断

solver 求解器
‘liblinear’ 坐标下降法 L1 L2
‘lbfgs’拟牛顿法的一种 利用损失函数二阶来优化损失函数 L1 L2
‘newton-cg’ L2 正则
‘sag’ 需要对特征进行标准化 随机平均梯度下降 与普通梯度下降法的区别是每次迭代仅使用一部分样本来计算梯度
L2
‘saga’ L1 L2 需要标准化

解决数据问题

去重
data.drop_duplicates(inplace=True)
上采样
from imblearn.over_sampling import SMOTE
sm = SMOTE.fit_resample(X,Y)
将Y中不均衡的样本复制 直至均衡 举个栗子 原来20% 1 80% 0
现在50% 1 50% 0

sklearn Logistic相关推荐

  1. 吴恩达《机器学习》--- Logistic分类

    Logistic分类应用于二分类问题,即给定特征XXX,y" role="presentation" style="position: relative;&qu ...

  2. Fate1.6 支持的机器学习算法

    联邦机器学习 Federatedml模块包括许多常见机器学习算法联邦化实现.所有模块均采用去耦的模块化方法开发,以增强模块的可扩展性.具体来说,我们提供: 联邦统计: 包括隐私交集计算,并集计算,皮尔 ...

  3. 《机器学习》课后习题3.3 对率回归编程实现

    参考了han同学的答案,西瓜数据集也可在han同学的github上下载. 3.3 编程实现对率回归,并给出西瓜数据集 3.0α 上的结果. 代码 import numpy as np import p ...

  4. sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图(trace plot)+代码实战

    sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图(trace plot)+代码实战 # 自定义损失函数 i ...

  5. sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss)

    sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss) # 广义线性模型中的各种连接函数: ...

  6. 机器学习——Java调用sklearn生成好的Logistic模型进行鸢尾花的预测

    机器学习是python语言的长处,而Java在web开发方面更具有优势,如何通过java来调用python中训练好的模型进行在线的预测呢?在java语言中去调用python构建好的模型主要有三种方法: ...

  7. logisticregression参数_通俗地说逻辑回归【Logistic regression】算法(二)sklearn逻辑回归实战...

    前情提要: 通俗地说逻辑回归[Logistic regression]算法(一) 逻辑回归模型原理介绍 上一篇主要介绍了逻辑回归中,相对理论化的知识,这次主要是对上篇做一点点补充,以及介绍sklear ...

  8. 监督学习 | 线性分类 之Logistic回归原理及Sklearn实现

    文章目录 1. Logistic 回归 1.1 Logistic 函数 1.2 Logistic 回归模型 1.2.1 模型参数估计 2. Sklearn 实现 参考资料 相关文章: 机器学习 | 目 ...

  9. 利用OpenCV与Sklearn实现的Logistic Regression

    学习机器学习已经有一周了.和许多机器学习的初学者一样,首先接触的就是Linear Regression和 Logistic Regression. 二者都是在确定了方法集(Model)之后,利用Gra ...

最新文章

  1. SQL语法之基础查询(进阶1)and条件查询(进阶2)
  2. mqtt android封装,Android之MQTT封装使用
  3. 携程元旦出游数据:冰雪运动热度升级 张家口酒店一房难求
  4. 美国人用什么android手机,美国过半消费者使用智能手机 Android占48.5%
  5. Linux查看CPU使用率、内存使用率等
  6. CC学iOS杂记 001_Device
  7. pm2 简介与常用指令
  8. 算法与数据结构 第2章 排序基础 上
  9. Mac没声音解决办法记录
  10. java并发编程 第二期 CAS
  11. Window笔记本触摸板手势大全
  12. H5播放flv视频流
  13. 混沌matlab仿真
  14. Verified Boot
  15. Debian设置合上笔记本盖子不休眠
  16. Manifest merger failed : uses-sdk:minSdkVersion 15 cannot be smaller than version 19 declared in lib
  17. DBN深度信念网络算法
  18. HC-05蓝牙配对AT指令
  19. 高等数学(下)重积分
  20. 倍加福耦合器KFD2-BR-1.PA.1500

热门文章

  1. 信息化助力企业合同风险的法律与财务联防联控
  2. MBP中增加万能头 bits/stdc++.h
  3. ESET NOD32 Antivirus 13.1.21.0 免激活版
  4. 格式化SD卡、修复烧写系统失败的SD卡
  5. 如何使用standard-input-json验证Solidity源码?
  6. Java异常:RuntimeException和Exception的区别
  7. 恢复以外丢失的Wrod文档
  8. HTML Flex布局教程
  9. Android 4.0 全屏显示,在我的原道n90 ICS 4.0.3版本实验通过
  10. perspective java_eclipse创建Java项目时提示Open Associated Perspective?