《数据驱动安全:数据安全分析、可视化和仪表盘》一3.3 读入数据
本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.3 读入数据
R语言和Python(特别是pandas)在读取和解析数据结构进行处理时能够处理复杂的数据。R的read.table()、read.csv()、read.delim()函数以及pandas的read_csv()函数几乎覆盖了所有的分隔文件读取的需求,并且为各类劣质的输入文件提供了强大的配置选项。在后续章节将会看到,两种工具都提供了从SQL和NoSQL数据库中提取数据、初始化HDFS大数据和处理非结构数据的良好方法。
合理的分隔是革命性技术
Base R和Python的pandas能阅读包含分隔符的文件,虽然它们不知道分隔符会在什么时候出现,以及分隔符具体是什么,但是,数据科学社区的共识是分隔符应该是逗号分隔值(CSV)或者制表符(tab)分隔值(TSV),绝大多数样本数据集都可以使用其中一种分隔符。CSV格式的完整定义在RFC 4180(http://www.rfc-editor.org/rfc/rfc4180.txt)中,具有以下高级属性:
每行应只有一个记录。
数据文件可以包含一个可选的标题行。
报头和数据行有用逗号(或制表符)分隔的字段。
每行应该有相同的字段数。
字段中的空格被视为显著标识。
虽然RFC 4180明确规定逗号是一种分隔符,制表符也可以作为分隔符(没有相关的RFC专门说明制表符分隔值)。
安全领域的很多工具都能够导入和导出CSV格式文件。如果打算在类似Hadoop的环境中完成任何工作,你需要熟悉CSV/TSV。
另一种构建格式是JSON(JavaScript Object Notation),该格式广泛应用在服务器和浏览器之间传输数据。正如你将在第8章看到的,JSON格式也是很多NoSQL数据库环境/工具的基础数据格式。JSON格式定义在http://www.rfc-editor.org/rfc/rfc4627.txt,有两个主要结构:
成对的名称/数值集合(一个“字典”)。
一个有顺序的数值列表(一个“数组”)。
相较于CSV和TSV格式,JSON格式保证了更丰富、更复杂的数据表示,而且,JSON正在迅速取代另一种流行的、结构化的数据格式—可扩展标记语言(the Extensible Markup Language,XML)。这是因为JSON更简洁的语法,更易于解析,以及(通常)更强的可读性。虽然XML已经并将继续作为文档表示格式,但你现在应该考虑使用JSON作为你的结构化数据处理格式。
从下载文件的粗略检查中你能看到AlienVault数据有一个相当简单的记录格式,该格式包含使用#作为分隔符的八个字段:
注意,信誉数据文件缺少可选报头,所以上述示例代码手动指定了更有意义的列名称。这是一个可选的步骤,但是它可以在扩展分析时避免混淆,同时,你在后续章节会看到,它可以在你添加额外数据集时建立整个数据帧的一致性。
记录格式的一致性使每种语言的数据有相同的消耗。在每种语言/环境中,我们遵循下面的模式:
读取数据。
分配有意义的列名(如果需要的话)。
使用内置函数来获取数据的结构概述。
阅读前几行数据,通常使用head()函数。
我们会在第4章介绍更多细节。
后续的代码(程序清单3-4和程序清单3-5)是基于前一节的代码,不能保证它们在其他地方正常工作。我们将在本书中延续这种模式,所以你应该按顺序装载和运行每一章的代码。
程序清单3-4
程序清单3-5
程序清单3-6
在Canopy内,IPython有一系列函数将数据输出到一个HTML视图格式(见程序清单3-6),该格式可以使程序清单3-5中的head()输出更易阅读(见图3-1)。
《数据驱动安全:数据安全分析、可视化和仪表盘》一3.3 读入数据相关推荐
- 《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.3 第2阶段:数据准备...
本节书摘来自异步社区<数据科学与大数据分析--数据的发现 分析 可视化与表示>一书中的第2章,第2.3节,作者[美]EMC Education Services(EMC教育服务团队),更多 ...
- 《数据驱动安全:数据安全分析、可视化和仪表盘》一2.3 数据帧介绍
本节书摘来华章计算机<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第2章 ,第2.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 ...
- 《数据驱动安全:数据安全分析、可视化和仪表盘》一3.7 推荐阅读
本节书摘来华章计算机<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第3章 ,第3.7节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 ...
- 《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.4 统计学
本节书摘来异步社区<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占 ...
- R获取股票数据并进行进行可视化分析
R获取股票数据并进行进行可视化分析 # 加载依赖的包 library(quantmod) library(ggplot2) library(magrittr) library(broom) # 设置计 ...
- 数据可视化:利用Python和Echarts制作“用户消费行为分析”可视化大屏
数据可视化:利用Python和Echarts制作"用户消费行为分析"可视化大屏 前言 实验目的: 准备工作: 一.创建项目: 二.建立数据库连接获取数据: 三.页面布局: 四.下载 ...
- 用python爬取全国和全球疫情数据,并进行可视化分析(过程详细代码可运行)
用Python爬取最新疫情数据 这次重大疫情,每时每刻数据都有可能变化,这篇博文将为大家讲解如何爬取实时疫情数据,并且分析数据,作出数据可视化的效果. 报告梗概: 对中国疫情分析 1.1 展示各省疫情 ...
- 数据看板/商业智能分析仪表盘
数据看板/商业智能分析仪表盘 利用excel处理42400+条数据 1.通过商业智能分析仪表板的形式,结合数据透视图和表展示客户消费额在不同维度(国籍.性别.职业等)上的分布 2.不同门店的销售情况 ...
- 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
最新文章
- fond+html属性,JQuery 干货篇之选择元素
- 提高cube性能的一些方法(一)
- BAT3四大巨头安全负责人破天荒聚在了一起,他们都说了什么?
- Android Shape使用
- j2ee之存储过程调用
- PHP常用工具方法集...
- java 批量处理 示例_Java中异常处理的示例
- efcore调用函数_EF Core 3.1 执行sql语句的几种方法
- McAfee Agent漏洞可导致黑客以Windows 系统权限运行代码
- 大数据催生智慧园区_杭州经纬智慧园区如何实现各系统间信息数据集中关联、一站管控...
- 【数据库系统】考虑题4所示的日志记录,假设开始时A、B、C的值都是0 (1) 如果系统故障发生在14之后,写出系统恢复后A、B、C的值
- 【渝粤题库】国家开放大学2021春2409中国古代文学(B)(1)题目
- 鸿蒙OS到底是不是Android套皮?(少bb,看源码!)
- acp 适应性领导_什么是适应性领导?
- errpt and errclear are unnormal
- 【转载收藏】针对VNPY的软件bugs的修改总结
- win cmd 打开D盘
- JS报错 Uncaught TypeError: undefined is not a function,解决
- SWUST OJ题目解析(C语言):160促销计算
- 判断是否是回文字符串两种方法
热门文章
- Linux7改运行级别,Centos7 修改运行级别
- php页面栏目访问权限,PHPCMS 栏目和内容浏览权限的解决方法
- 小米盒子4 android版本,安卓系统越用越卡,曾学忠:小米 10 至尊纪念版搭载黑科技 MITurbo 4.0 技术...
- linux打开vivado_ubuntu启动vivado UBUNTU 16.04安装VIVADO成功启动SDK - Linux - 服务器之家...
- 讲解虚拟服务器的书_程序员不得不看的书
- 变种 背包问题_动态规划入门——传说中的零一背包问题
- 虚拟IO服务器,虚拟IO服务器VIOS概念.doc
- java中断一个线程
- 【项目管理】项目问题诊断
- 【架构】阿里中台内容整理(部分)