本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 读入数据

R语言和Python(特别是pandas)在读取和解析数据结构进行处理时能够处理复杂的数据。R的read.table()、read.csv()、read.delim()函数以及pandas的read_csv()函数几乎覆盖了所有的分隔文件读取的需求,并且为各类劣质的输入文件提供了强大的配置选项。在后续章节将会看到,两种工具都提供了从SQL和NoSQL数据库中提取数据、初始化HDFS大数据和处理非结构数据的良好方法。

合理的分隔是革命性技术
Base R和Python的pandas能阅读包含分隔符的文件,虽然它们不知道分隔符会在什么时候出现,以及分隔符具体是什么,但是,数据科学社区的共识是分隔符应该是逗号分隔值(CSV)或者制表符(tab)分隔值(TSV),绝大多数样本数据集都可以使用其中一种分隔符。CSV格式的完整定义在RFC 4180(http://www.rfc-editor.org/rfc/rfc4180.txt)中,具有以下高级属性:
每行应只有一个记录。
数据文件可以包含一个可选的标题行。
报头和数据行有用逗号(或制表符)分隔的字段。
每行应该有相同的字段数。
字段中的空格被视为显著标识。
虽然RFC 4180明确规定逗号是一种分隔符,制表符也可以作为分隔符(没有相关的RFC专门说明制表符分隔值)。
安全领域的很多工具都能够导入和导出CSV格式文件。如果打算在类似Hadoop的环境中完成任何工作,你需要熟悉CSV/TSV。
另一种构建格式是JSON(JavaScript Object Notation),该格式广泛应用在服务器和浏览器之间传输数据。正如你将在第8章看到的,JSON格式也是很多NoSQL数据库环境/工具的基础数据格式。JSON格式定义在http://www.rfc-editor.org/rfc/rfc4627.txt,有两个主要结构:
成对的名称/数值集合(一个“字典”)。
一个有顺序的数值列表(一个“数组”)。
相较于CSV和TSV格式,JSON格式保证了更丰富、更复杂的数据表示,而且,JSON正在迅速取代另一种流行的、结构化的数据格式—可扩展标记语言(the Extensible Markup Language,XML)。这是因为JSON更简洁的语法,更易于解析,以及(通常)更强的可读性。虽然XML已经并将继续作为文档表示格式,但你现在应该考虑使用JSON作为你的结构化数据处理格式。

从下载文件的粗略检查中你能看到AlienVault数据有一个相当简单的记录格式,该格式包含使用#作为分隔符的八个字段:

注意,信誉数据文件缺少可选报头,所以上述示例代码手动指定了更有意义的列名称。这是一个可选的步骤,但是它可以在扩展分析时避免混淆,同时,你在后续章节会看到,它可以在你添加额外数据集时建立整个数据帧的一致性。
记录格式的一致性使每种语言的数据有相同的消耗。在每种语言/环境中,我们遵循下面的模式:
读取数据。
分配有意义的列名(如果需要的话)。
使用内置函数来获取数据的结构概述。
阅读前几行数据,通常使用head()函数。
我们会在第4章介绍更多细节。
后续的代码(程序清单3-4和程序清单3-5)是基于前一节的代码,不能保证它们在其他地方正常工作。我们将在本书中延续这种模式,所以你应该按顺序装载和运行每一章的代码。
程序清单3-4

程序清单3-5

程序清单3-6

在Canopy内,IPython有一系列函数将数据输出到一个HTML视图格式(见程序清单3-6),该格式可以使程序清单3-5中的head()输出更易阅读(见图3-1)。

《数据驱动安全:数据安全分析、可视化和仪表盘》一3.3 读入数据相关推荐

  1. 《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.3 第2阶段:数据准备...

    本节书摘来自异步社区<数据科学与大数据分析--数据的发现 分析 可视化与表示>一书中的第2章,第2.3节,作者[美]EMC Education Services(EMC教育服务团队),更多 ...

  2. 《数据驱动安全:数据安全分析、可视化和仪表盘》一2.3 数据帧介绍

    本节书摘来华章计算机<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第2章 ,第2.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 ...

  3. 《数据驱动安全:数据安全分析、可视化和仪表盘》一3.7 推荐阅读

    本节书摘来华章计算机<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第3章 ,第3.7节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 ...

  4. 《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.4 统计学

    本节书摘来异步社区<数据驱动安全:数据安全分析.可视化和仪表盘>一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占 ...

  5. R获取股票数据并进行进行可视化分析

    R获取股票数据并进行进行可视化分析 # 加载依赖的包 library(quantmod) library(ggplot2) library(magrittr) library(broom) # 设置计 ...

  6. 数据可视化:利用Python和Echarts制作“用户消费行为分析”可视化大屏

    数据可视化:利用Python和Echarts制作"用户消费行为分析"可视化大屏 前言 实验目的: 准备工作: 一.创建项目: 二.建立数据库连接获取数据: 三.页面布局: 四.下载 ...

  7. 用python爬取全国和全球疫情数据,并进行可视化分析(过程详细代码可运行)

    用Python爬取最新疫情数据 这次重大疫情,每时每刻数据都有可能变化,这篇博文将为大家讲解如何爬取实时疫情数据,并且分析数据,作出数据可视化的效果. 报告梗概: 对中国疫情分析 1.1 展示各省疫情 ...

  8. 数据看板/商业智能分析仪表盘

    数据看板/商业智能分析仪表盘 利用excel处理42400+条数据 1.通过商业智能分析仪表板的形式,结合数据透视图和表展示客户消费额在不同维度(国籍.性别.职业等)上的分布 2.不同门店的销售情况 ...

  9. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

最新文章

  1. fond+html属性,JQuery 干货篇之选择元素
  2. 提高cube性能的一些方法(一)
  3. BAT3四大巨头安全负责人破天荒聚在了一起,他们都说了什么?
  4. Android Shape使用
  5. j2ee之存储过程调用
  6. PHP常用工具方法集...
  7. java 批量处理 示例_Java中异常处理的示例
  8. efcore调用函数_EF Core 3.1 执行sql语句的几种方法
  9. McAfee Agent漏洞可导致黑客以Windows 系统权限运行代码
  10. 大数据催生智慧园区_杭州经纬智慧园区如何实现各系统间信息数据集中关联、一站管控...
  11. 【数据库系统】考虑题4所示的日志记录,假设开始时A、B、C的值都是0 (1) 如果系统故障发生在14之后,写出系统恢复后A、B、C的值
  12. 【渝粤题库】国家开放大学2021春2409中国古代文学(B)(1)题目
  13. 鸿蒙OS到底是不是Android套皮?(少bb,看源码!)
  14. acp 适应性领导_什么是适应性领导?
  15. errpt and errclear are unnormal
  16. 【转载收藏】针对VNPY的软件bugs的修改总结
  17. win cmd 打开D盘
  18. JS报错 Uncaught TypeError: undefined is not a function,解决
  19. SWUST OJ题目解析(C语言):160促销计算
  20. 判断是否是回文字符串两种方法

热门文章

  1. Linux7改运行级别,Centos7 修改运行级别
  2. php页面栏目访问权限,PHPCMS 栏目和内容浏览权限的解决方法
  3. 小米盒子4 android版本,安卓系统越用越卡,曾学忠:小米 10 至尊纪念版搭载黑科技 MITurbo 4.0 技术...
  4. linux打开vivado_ubuntu启动vivado UBUNTU 16.04安装VIVADO成功启动SDK - Linux - 服务器之家...
  5. 讲解虚拟服务器的书_程序员不得不看的书
  6. 变种 背包问题_动态规划入门——传说中的零一背包问题
  7. 虚拟IO服务器,虚拟IO服务器VIOS概念.doc
  8. java中断一个线程
  9. 【项目管理】项目问题诊断
  10. 【架构】阿里中台内容整理(部分)