pandas 绘图 机器学习看特征相关性
pandas 绘图
import numpy as np import tflearn from tflearn.layers.core import dropout from tflearn.layers.normalization import batch_normalization from tflearn.data_utils import to_categorical from sklearn.model_selection import train_test_split import sys import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt data_train = pd.read_csv("feature_with_dnn_todo2.dat") data_train.info() import matplotlib.pyplot as plt print(data_train.columns)for col in data_train.columns[1:]:fig = plt.figure()fig.set(alpha=0.2)plt.figure()data_train[data_train.label == 0.0][col].plot()data_train[data_train.label == 1.0][col].plot()data_train[data_train.label == 2.0][col].plot()data_train[data_train.label == 3.0][col].plot()plt.xlabel(u"sample data id")plt.ylabel(col) plt.title(col)plt.legend((u'white', u'cdn',u'tunnel', u"msad"),loc='best')plt.show()
结果:
Index(['label', 'flow_cnt', 'len(srcip_arr)', 'len(dstip_arr)',
'subdomain_num', 'uniq_subdomain_ratio',
'np.average(dns_request_len_arr)', 'np.average(dns_reply_len_arr)',
'np.average(subdomain_tag_num_arr)', 'np.average(subdomain_len_arr)',
'np.average(subdomain_weird_len_arr)',
'np.average(subdomain_entropy_arr)', 'A_rr_type_ratio',
'incommon_rr_type_rato', 'valid_ipv4_ratio', 'uniq_valid_ipv4_ratio',
'request_reply_ratio', 'np.max(dns_request_len_arr)',
'np.max(dns_reply_len_arr)', 'np.max(subdomain_tag_num_arr)',
'np.max(subdomain_len_arr)', 'np.max(subdomain_weird_len_arr)',
'np.max(subdomain_entropy_arr)', 'avg_distance', 'std_distance'],
dtype='object')
。。。。
输入数据样例:
label,flow_cnt,len(srcip_arr),len(dstip_arr),subdomain_num,uniq_subdomain_ratio,np.average(dns_request_len_arr),np.average(dns_reply_len_arr),np.average(subdomain_tag_num_arr),np.average(subdomain_len_arr),np.average(subdomain_weird_len_arr),np.average(subdomain_entropy_arr),A_rr_type_ratio,incommon_rr_type_rato,valid_ipv4_ratio,uniq_valid_ipv4_ratio,request_reply_ratio,np.max(dns_request_len_arr),np.max(dns_reply_len_arr),np.max(subdomain_tag_num_arr),np.max(subdomain_len_arr),np.max(subdomain_weird_len_arr),np.max(subdomain_entropy_arr),avg_distance,std_distance
0.0,1.0,1.0,1.0,1.0,1.0,35.0,148.0,1.0,3.0,0.0,0.0,1.0,0.0,1.0,1.0,0.142857142857,35.0,148.0,1.0,3.0,0.0,-0.0,0,0
0.0,10.0,1.0,3.0,6.0,0.6,42.7,143.5,1.83333333333,8.5,0.0,2.75986309274,0.6,0.0,0.2,0.2,0.0117096018735,44.0,287.0,2.0,10.0,0.0,2.94770277922,2.2,1.46969384567
0.0,100.0,1.0,2.0,50.0,0.5,49.63,62.96,1.0,7.7,0.0,2.41418035734,0.51,0.0,0.26,0.01,0.00100745516825,56.0,134.0,1.0,14.0,0.0,3.27761343682,7.14285714286,2.65729646253
0.0,100.0,1.0,3.0,17.0,0.17,46.11,70.53,1.0,4.47058823529,0.0,1.29411764706,0.4,0.0,0.13,0.05,0.00108436347864,54.0,631.0,1.0,12.0,0.0,3.0,5.1875,1.84454432042
0.0,100.0,1.0,4.0,50.0,0.5,45.8,59.59,1.0,5.8,0.0,2.06068705052,0.5,0.0,0.22,0.01,0.00109170305677,46.0,126.0,1.0,6.0,0.0,2.58496250072,4.14285714286,0.925820099773
0.0,100.0,11.0,7.0,26.0,0.26,42.64,58.51,1.0,4.80769230769,0.0,1.53846153846,0.84,0.0,0.7,0.25,0.00117260787992,47.0,201.0,1.0,5.0,0.0,2.0,1.28,0.825590697622
。。。
转载于:https://www.cnblogs.com/bonelee/p/8617654.html
pandas 绘图 机器学习看特征相关性相关推荐
- 使用pandas correlation函数批量删除相关性冗余特征、实现特征筛选(feature selection)
使用pandas Correlation函数批量删除相关性冗余特征.实现特征筛选(feature selection) 冗余特征或者相关性非常强的特征,会造成共线性问题. 1.相关性高的特征太多放大了 ...
- Python机器学习笔记之pandas绘图
前言 本文基于南京大学张莉老师的<用python玩转数据>记录Python绘图学习历程. 一.pandas绘图目的 pandas 绘图是基于Series和DataFrame的绘图,可直接将 ...
- 机器学习之 特征工程
之前相关文章目录: 机器学习 之线性回归 机器学习 之逻辑回归及python实现 机器学习项目实战 交易数据异常检测 机器学习之 决策树(Decision Tree) 机器学习之 决策树(Decisi ...
- 机器学习和特征工程理论与python代码实现 晓物智联
文章来源于:http://www.52phm.cn/blog/detail/23 最初来源于本人的kesci专栏 课题:特征工程理论及代码实现 日期:2019.9.21 作者:小知同学 描述:本篇比较 ...
- 绝了!Pandas绘图功能
柱状图箱线图密度图条形图散点图折线图保存绘图总结 可视化是用来探索性数据分析最强大的工具之一.Pandas库包含基本的绘图功能,可以让你创建各种绘图.Pandas中的绘图是在matplotlib之上构 ...
- 面向机器学习的特征工程 一、引言
来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:@ZhipengYe 校对:(虚位以待) 机器学习将数据拟合到数学模型中来获得结论或者做出预测.这些模型吸纳特征作为输入.特 ...
- 自动预测保险理赔:机器学习之特征预处理(Kaggle保险索赔竞赛案例)
原文地址:https://yq.aliyun.com/articles/65158?spm=5176.8091938.0.0.3Wl7HH 摘要: 针对Kaggle保险索赔竞赛给定的数据集,本文详细介 ...
- 【CS224W】(task2)传统图机器学习和特征工程
note 和CS224W课程对应,将图的基本表示写在task1笔记中了:传统图特征工程:将节点.边.图转为d维emb,将emb送入ML模型训练 Traditional ML Pipeline Hand ...
- R绘图-物种、环境因子相关性网络图(简单图、提取子图、修改图布局参数、物种-环境因子分别成环径向网络图)
https://doi.org/10.1016/j.soilbio.2020.107782 有师妹想要绘制一张类似上图的环境因子-物种相关性网络图.这张图其实还挺好复现的,将环境因子与物种都作为变量一 ...
最新文章
- eclipse安装springtoolsuite-4-4.8.1失败,是eclipse版本不匹配吗
- MySQL_解决ERROR 2006 (HY000) at line XX MySQL server has gone away问题
- elasticsearch 数据类型_基于 MySQL Binlog 的 Elasticsearch 数据同步实践
- JDK 9中已弃用Java的Observer和Observable
- applyBinding Observables
- golang mysql大量连接_golang mysql 如何设置最大连接数和最大空闲连接数
- 对象可以在栈上分配空间吗?_Java面试题之:Java中所有的对象都分配在堆中吗?...
- Hibernate的transaction嵌套
- RHadoop实践系列文章
- Cadance 进行LOGO 制作
- 软件测试周刊(第26期):从喜欢里得到力量和快乐
- 基于微信小程序的投票系统——计算机毕业设计
- 基于Barra多因子模型的组合权重优化
- MFC之菜单栏的相关使用14
- Python 高效提取 HTML 文本的方法
- consul服务发现入门篇
- 用Python写随机密码生成
- oracle 12.2R2 安装GI执行root.sh遇到CLSRSC-400
- jquery按钮和回车键绑定
- 追赶时代浪潮的“脸商”,刷脸支付市场前景广阔
热门文章
- Appium之Hybrid APP混合应用测试
- MySQL安装教程及安装过程中出现no compatible servers were found的解决办法
- PHP代码程序,php代码自动执行
- web系统 手机app 能访问吗?_成都APP开发:原生APP开发与Web APP开发有什么区别呢?...
- 删除文件夹下所有的文件_Mac 删除文件/文件夹方法和快捷键
- pcb成型板aoi检测_一种PCB板的AOI检测控制系统的制作方法
- 全网最经典26道Spring面试题总结,附面试题答案
- 【PAT (Advanced Level) Practice】1054 The Dominant Color (20 分)
- Tensorflow【实战Google深度学习框架】基于tensorflow + Vgg16进行图像分类识别
- linux script录屏文件夹,linux下录屏和回放工具script和scriptreplay