什么是D-Tale

D-Tale是Flask后端和React前端的结合，为Pandas数据结构的提供可视化分析。
它与ipython notebook和python/ipython terminals无缝集成。
目前这个工具支持Pandas的这些数据结构DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。

D-Tale是SAS到Python转换的产品。最初是SAS insight函数之上的perl脚本包装器，现在是Pandas数据结构之上的轻量级web客户端。

pypi地址

如何使用

安装

pip install -U dtale

使用

%python
import dtale
import pandas as pdimport pandas as pd
df = pd.read_csv("/data/flink/bank.csv", sep=";")dtale.show(df,vertical_headers=False,
)

常用功能

列菜单提供的功能

冻结列： Lock option将列固定在屏幕的左侧，允许您自由滚动/导航到其他列
隐藏和删除：
- hide选项从dataframe视图中删除列。它不会从实际dataframe中删除。可以简单地从右上角的隐藏列表中取消隐藏列
- delete选项将从dataframe中永久删除该列。它类似于pandas的drop功能。在后端，它迭代列列表以选择要从dataframe中删除的列。
替换和类型转换
- 替换选项用于用常量或nan值替换列的某些值。可以就地进行替换，也可以创建单独的列。替换类型也可以定义为替换: 特定值、空格或特定字符串替换
- Type conversion 针对字段的类型进行转换
描述性统计Describe: 提供列或数据集的统计摘要，这个针对数据探查比较重要，
筛选过滤Filters 增加针对列或数据集的过滤功能
方差报告Variance Report ：表示该特征是否具有低方差。它根据如下两个检查来决定，注意：只能用于非字符串类型。
- 特性/样本大小中唯一值的计数< 10%
- 最常用值的计数/第二常用值的计数> 20
文本清洗: 仅对字符串类型的值可用。
- 文本清理是数据科学项目的主要部分。如果清洗方式正确，可以提高模型性能
- 提供可应用于文本的所有可能的文本清理方法（详见下图)

主菜单提供的功能

Main Menu Options：主菜单与列菜单提供的选项几乎相同，但在主菜单中，它们是通用的，您可以在多个列的一个位置上执行操作，而可以手动从显示中选择它们。

以下是主菜单独有的一些选项，它们的工作方式不同。

Build Column: 允许你在现有的列之外创建新的功能/列。可以通过对列执行算术操作或使用两个列执行操作来创建这些新特性
汇总数据Summarize Data: 像在pandas中一样，可以通过分组或数据透视表概括数据【summarise the data】。
缺失率分析Missing Analysis: 在任何类型的数据集中，缺失数据都是一个常见的问题.
- D-Tale使用missingno python包来可视化数据集中出现的缺失值。
- D-Tale还提供矩阵、条形图、热图和树状图。
Charts：绘图是任何数据科学探索性分析阶段的重要步骤
- D-Tale uses plotly to create interactive plots
- offers Line, Bar, Scatter, Pie, word cloud, Heatmap, 3D scatter, Surface, Maps, Candlestick, Treemap, and funnel charts
- 不同类型的数据支持不同类型的图表
Highlighters: 突出【高亮】显示数据集的某些部分
- 可以突出显示缺失值、数据类型、离群值和范围。
Code Export and Data Export
- 你在D-Tale中对你的dataframe所做的所有操作都自动转换为它们的python/pandas/plotly等效代码。
- 可以使用导出选项在更改为CSV、TSV、Parquet后直接导出最终的数据集。

结论

使用Pandas 和 D-Tale，能快速的针对数据进行探查分析

附录

exploring-pandas-dataframe-with-d-tale

zeppelin--使用D-Tale，针对pandas结构化数据进行可视化探索相关推荐

微软熊辰炎：如何利用图神经网络解决半结构化数据问题？
对于许多信息检索和知识图谱研究者来说,究竟应该使用抽象的结构化信息进行表示学习还是使用海量的文本信息始终是一个富有争议的话题.在本届智源大会上,来自微软研究院的高级研究员熊辰炎博士带来了题为" ...
独家 | 使用机器学习加速对非结构化数据的查询-第1部分（使用BlazeIt加速聚合和限制查询）...
作者:Daniel Daniel,Peter Bailis和Matei Zaharia 翻译:Kay 校对:王雨桐本文约2800字,建议阅读13分钟. 本文为大家介绍了针对非结构化数据如何加快聚合和 ...
对于半结构化数据的讲解，这可能是最通俗易懂的一篇文章了
一. 概述相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML. ...
非结构化数据定义、处理方法及重要性
一.非结构化数据定义不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档. 文本.图片. 标准通用标记语言下的子集 XML. HTML.各类报表.图像和音频/视频信息等等. ...
如何理解结构化、非结构化和半结构化数据？
计算机信息化系统中的数据分为结构化数据.非结构化数据和半结构化数据 1.结构化数据(Structured Data) 定义:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据 ...
什么是结构化数据？什么是半结构化数据？
概述相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTM ...
分析非结构化数据和非结构化处理
文章目录一.非结构化数据的定义二.非结构化处理的重要性三.数据类型四.非结构化处理的方法和手段 1. 采集 2. 查询 3. 存储 4. 前景一.非结构化数据的定义非结构化数据是数据结构不 ...
浅述非结构化数据与非结构化处理
文章目录一.非结构化数据的定义二.非结构化处理的重要性 1. 有大量的非结构化数据需要处理 2. 非结构化数据蕴藏着大量的价值 3. 非结构化处理不需要依靠数据科学家团队 4. 终端用户授权三. ...
什么是结构化数据？什么是半结构化数据？（*）
概述相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTM ...
基于规则的结构化数据知识抽取（一）
为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景.统一数据格式设计和规则设计:第二篇介绍抽取程序设计:第三篇介绍规则配置交互设计 1. 背景知识抽取是从数据中提炼.萃取知识信息的过程.按照 ...

zeppelin--使用D-Tale，针对pandas结构化数据进行可视化探索