cph = CoxPHFitter()训练过程中遇到的坑以及画图

画图报错:会报valueError,原因是可能画图软件没有达到指定版本;
解决方案:(1)更新plt,安装最新的到0.17;可能还会需要安装最新的lifelines;
DataFrames的画图:
参考:https://blog.csdn.net/grey_csdn/article/details/70768721
如下,DataFrame画图:

  from pandas import Series,DataFramefrom numpy.random import randnimport numpy as npimport matplotlib.pyplot as pltdf = DataFrame(randn(10,5),columns=['A','B','C','D','E'],index = np.arange(0,100,10))df.plot()

cph = CoxPHFitter()画图:
import pandas as pd
from lifelines import CoxPHFitter
import matplotlib.pyplot as pltcph = CoxPHFitter()
df1 = pd.read_csv('/home/sc/Downloads/tmp/shixin_cox_all_data_to_model_new.csv')#训练方式1,只用以下几个特征训练
# c = ['defendant_judgedoc_cnt','network_share_zhixing_cnt','shixin_label', 'survival_time','regcap','judgedoc_cnt']c =['is_revoke','is_cancel','court_notice_is_no','established_year','r1_subsidiary_invest_max_dx_zx','r2_controlled_invest_max_dx_zx',
'r4_common_corporate_shi_xin',
'r4_common_corporate_zhi_xin','judgedoc_cnt','network_share_judge_doc_cnt','network_all_link_defendant_judgedoc_cnt',
'companyname_change_cnt','business_range_change_cnt','regcap_change_cnt','share_change_cnt','fr_change_cnt',
'address_change_cnt','director_change_cnt','network_fr_judgedoc_cnt','shixin_label', 'survival_time']
#'is_cancel',
df1 =df1[c]#训练方式2:去掉全为0的特征.
# a =['company_name','r1_subsidiary_invest_max', 'r2_controlled_invest_max', 'r3_common_company_controlled_invest', 'r4_common_corporate']
# c_1 =['network_share_shixin_cnt','litigant_defendant_contract_dispute_cnt','litigant_defendant_bust_cnt','litigant_copyright_dispute_cnt']
# a.extend(c_1)
# df1 = df1.drop(a, axis=1)df1 = df1.fillna(0)
# shixin_0 = df1[(df1['shixin_label'] == 0)][0:5000]
# shixin_1 = df1[(df1['shixin_label'] == 1)][0:2000]
# df1 = pd.concat([shixin_0,shixin_1])
shixin_0 = df1[(df1['shixin_label'] == 0)][0:100000]
shixin_1 = df1[(df1['shixin_label'] == 1)][0:30000]
df1 = pd.concat([shixin_0,shixin_1])
# df1 = df1.sort_values(by="survival_time" , ascending=True)
# print(df1["survival_time"])
# df1['group'] =(df1.groupby(['survival_time','shixin_label']).size()).tolist()
#
# print(df1['group'])cph.fit(df1, duration_col='survival_time', event_col='shixin_label', show_progress=True, step_size=0.1)
cph.print_summary()
cph.plot() #画得是两个变量之间的相关关系值
plt.show()
cph.plot_covariate_groups('established_year', [0, 5, 10, 15])
plt.show()
# harper= df1['established_year']
# ax = plt.subplot(2,1,1)
# df1.predict_cumulative_hazard(harper).plot(ax=ax)
#
# ax = plt.subplot(2,1,2)
# df1.predict_survival_function(harper).plot(ax=ax)# from lifelines import CoxPHFitter
# from lifelines.datasets import load_regression_dataset
# from lifelines.utils import k_fold_cross_validation
# import numpy as np
# regression_dataset = load_regression_dataset()
# cph = CoxPHFitter()
# ###做k折交叉验证的时候,会导致有些特征取值全为0,会报ValueError: delta contains nan value(s). Convergence halted.错误;
# scores = k_fold_cross_validation(cph, df1, duration_col='survival_time', event_col='shixin_label',k=3)
# print(scores)
# print(np.mean(scores))
# print(np.std(scores))

(2)训练过程中遇到的坑:
虽然结果指标Concordance相比之前提升了不少,但是其特征的显著性全都很低,原因是步长step_size调的过小,将step_size=0.00001 调至step_size=0.1,即可以看到有些特征的显著性较强(三颗星:*),这背后的原因还没弄清楚;另外,会发现样本量整体数量与样本中正负样本比例对结果会造成轻微影响;

cph = CoxPHFitter()训练过程中遇到的坑以及画图相关推荐

dqn在训练过程中loss越来越大_DQN算法实现注意事项及排错方法
在学习强化学习过程中,自己实现DQN算法时,遇到了比较多的问题,花了好几天的时间才得以解决.最后分析总结一下,避免再走弯路. 有可能开始实现出来的DQN算法,无论怎么训练总是看不错成果.需要注意的地方 ...
理解YOLOv2训练过程中输出参数含义
转载自https://blog.csdn.net/dcrmg/article/details/78565440 原英文地址: https://timebutt.github.io/static/und ...
dqn在训练过程中loss越来越大_用DQN算法玩FlappyBird
DQN算法可以用于解决离散的动作问题,而FlappyBird的操作正好是离散的. FlappyBird的游戏状态一般可以通过图像加卷积神经网络(CNN)来进行强化学习.但是通过图像分析会比较麻烦,因为 ...
MutipartFile使用过程中遇到的坑
MutipartFile使用过程中遇到的坑 MutipartFile是spring里面定义的接口,它封装了用户在上传图片时所包含的所有信息,但是有些时候我们要将file转换成MutipartFile, ...
Tensorflow学习笔记6：解决tensorflow训练过程中GPU未调用问题
Tensorflow学习笔记6:解决tensorflow训练过程中GPU未调用问题参考文章: (1)Tensorflow学习笔记6:解决tensorflow训练过程中GPU未调用问题 (2)http ...
pytorch训练过程中loss出现NaN的原因及可采取的方法
在pytorch训练过程中出现loss=nan的情况 1.学习率太高. 2.loss函数 3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决 4.数据本身,是否存在Nan,可以用n ...
DeepLearning tutorial（2）机器学习算法在训练过程中保存参数
FROM: http://blog.csdn.net/u012162613/article/details/43169019 DeepLearning tutorial(2)机器学习算法在训练过程中保 ...
TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题
一:适用范围: tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层二:原理: dropout就是在不同的训练过程中随机扔掉一部分神经元.也就是让 ...
Android studio安装过程中入的坑的记录与记录
Android studio安装过程中入的坑的记录与记录 * 由于最近项目的需求,所以最近一直在配置安卓的开发环境,之前用的是Eclipse + ADT的模式开发的,配置环境也花了一些时间,但是由于谷 ...

cph = CoxPHFitter()训练过程中遇到的坑以及画图

cph = CoxPHFitter()训练过程中遇到的坑以及画图相关推荐

最新文章

热门文章