zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索
什么是D-Tale
D-Tale是Flask后端和React前端的结合,为Pandas数据结构的提供可视化分析。
它与ipython notebook和python/ipython terminals无缝集成。
目前这个工具支持Pandas的这些数据结构DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。
D-Tale是SAS到Python转换的产品。最初是SAS insight函数之上的perl脚本包装器,现在是Pandas数据结构之上的轻量级web客户端。
pypi地址
如何使用
安装
pip install -U dtale
使用
%python
import dtale
import pandas as pdimport pandas as pd
df = pd.read_csv("/data/flink/bank.csv", sep=";")dtale.show(df,vertical_headers=False,
)
常用功能
列菜单提供的功能
- 冻结列: Lock option将列固定在屏幕的左侧,允许您自由滚动/导航到其他列
- 隐藏和删除:
- hide选项从dataframe视图中删除列。它不会从实际dataframe中删除。可以简单地从右上角的隐藏列表中取消隐藏列
- delete选项将从dataframe中永久删除该列。它类似于pandas的drop功能。在后端,它迭代列列表以选择要从dataframe中删除的列。
- 替换和类型转换
- 替换选项用于用常量或nan值替换列的某些值。可以就地进行替换,也可以创建单独的列。替换类型也可以定义为替换: 特定值、空格或特定字符串替换
- Type conversion 针对字段的类型进行转换
- 描述性统计Describe: 提供列或数据集的统计摘要,这个针对数据探查比较重要,
- 筛选过滤Filters 增加针对列 或 数据集的过滤功能
- 方差报告Variance Report :表示该特征是否具有低方差。它根据如下两个检查来决定,注意:只能用于非字符串类型。
- 特性/样本大小中唯一值的计数< 10%
- 最常用值的计数/第二常用值的计数> 20
- 文本清洗: 仅对字符串类型的值可用。
- 文本清理是数据科学项目的主要部分。如果清洗方式正确,可以提高模型性能
- 提供可应用于文本的所有可能的文本清理方法(详见下图)
主菜单提供的功能
Main Menu Options:主菜单与列菜单提供的选项几乎相同,但在主菜单中,它们是通用的,您可以在多个列的一个位置上执行操作,而可以手动从显示中选择它们。
以下是主菜单独有的一些选项,它们的工作方式不同。
- Build Column: 允许你在现有的列之外创建新的功能/列。可以通过对列执行算术操作或使用两个列执行操作来创建这些新特性
- 汇总数据Summarize Data: 像在pandas中一样,可以通过分组或数据透视表 概括数据【summarise the data】。
- 缺失率分析Missing Analysis: 在任何类型的数据集中,缺失数据都是一个常见的问题.
- D-Tale使用missingno python包来可视化数据集中出现的缺失值。
- D-Tale还提供矩阵、条形图、热图和树状图。
- Charts: 绘图是任何数据科学探索性分析阶段的重要步骤
- D-Tale uses plotly to create interactive plots
- offers Line, Bar, Scatter, Pie, word cloud, Heatmap, 3D scatter, Surface, Maps, Candlestick, Treemap, and funnel charts
- 不同类型的数据支持不同类型的图表
- Highlighters: 突出【高亮】显示数据集的某些部分
- 可以突出显示缺失值、数据类型、离群值和范围。
- Code Export and Data Export
- 你在D-Tale中对你的dataframe所做的所有操作都自动转换为它们的python/pandas/plotly等效代码。
- 可以使用导出选项在更改为CSV、TSV、Parquet后直接导出最终的数据集。
结论
使用Pandas 和 D-Tale,能快速的针对数据进行探查分析
附录
exploring-pandas-dataframe-with-d-tale
zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索相关推荐
- 微软熊辰炎:如何利用图神经网络解决半结构化数据问题?
对于许多信息检索和知识图谱研究者来说,究竟应该使用抽象的结构化信息进行表示学习还是使用海量的文本信息始终是一个富有争议的话题.在本届智源大会上,来自微软研究院的高级研究员熊辰炎博士带来了题为" ...
- 独家 | 使用机器学习加速对非结构化数据的查询-第1部分(使用BlazeIt加速聚合和限制查询)...
作者:Daniel Daniel,Peter Bailis和Matei Zaharia 翻译:Kay 校对:王雨桐 本文约2800字,建议阅读13分钟. 本文为大家介绍了针对非结构化数据如何加快聚合和 ...
- 对于半结构化数据的讲解,这可能是最通俗易懂的一篇文章了
一. 概述 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML. ...
- 非结构化数据定义、处理方法及重要性
一.非结构化数据定义 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档. 文本.图片. 标准通用标记语言下的子集 XML. HTML.各类报表.图像和音频/视频信息等等. ...
- 如何理解结构化、非结构化和半结构化数据?
计算机信息化系统中的数据分为结构化数据.非结构化数据和半结构化数据 1.结构化数据(Structured Data) 定义:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据 ...
- 什么是结构化数据?什么是半结构化数据?
概述 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTM ...
- 分析非结构化数据和非结构化处理
文章目录 一.非结构化数据的定义 二.非结构化处理的重要性 三.数据类型 四.非结构化处理的方法和手段 1. 采集 2. 查询 3. 存储 4. 前景 一.非结构化数据的定义 非结构化数据是数据结构不 ...
- 浅述非结构化数据与非结构化处理
文章目录 一.非结构化数据的定义 二.非结构化处理的重要性 1. 有大量的非结构化数据需要处理 2. 非结构化数据蕴藏着大量的价值 3. 非结构化处理不需要依靠数据科学家团队 4. 终端用户授权 三. ...
- 什么是结构化数据?什么是半结构化数据?(*)
概述 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTM ...
- 基于规则的结构化数据知识抽取(一)
为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景.统一数据格式设计和规则设计:第二篇介绍抽取程序设计:第三篇介绍规则配置交互设计 1. 背景 知识抽取是从数据中提炼.萃取知识信息的过程.按照 ...
最新文章
- 软件调试学习笔记(六)—— 硬件断点
- Leetcode之二叉树(前200道)
- 第4章 Python 数字图像处理(DIP) - 频率域滤波3 - 取样和取样函数的傅里叶变换、混叠
- [转]Asp.Net大型项目实践(11)-基于MVC Action粒度的权限管理【续】【源码在这里】(在线demo,全部源码)...
- 远程计算机需要网络级别身份验证,而您的计算机不支持该验证,请联系您的系统管理员或者技术人员来获得帮助...
- linux和python的关系_Python、Linux与我的缘分
- 计算机网络7种类型,OSPF中7种类型LSA
- SpringBoot项目在Gitee的控管步骤
- SQLserver锁和事务隔离级别的比较与使用
- openwrt运行linux软件,使用OpenWrt开发嵌入式Linux(二):先让系统跑起来(使用initramfs)...
- LIstView和TreeView相关联
- linux 环境下设置Kettle的转换,作业定时执行简单操作
- C语言程序设计的七个准备步骤
- ens32文件空白(没有ens33文件)
- python随机生成20个数字_你如何在Python中生成20个随机数字
- Unity的读表,存档,读档
- Linux Shell脚本中压缩包解压到目标目录下
- docker 容器运行后不退出
- SQL server学习日志(二)创建表!手把手教你创建表,修改表,了解数据类型!超详细!
- 微信多开服务器,PC端微信多开