《BI那点儿事》数据流转换——聚合
聚合转换可以像T-SQL中的函数GROUP BY, Average, Minimum, Maximum, 和 Count一样对数据进行聚合运算。在图中可以看到数据以SampleID分组,对TotalSugar做Average、Maximum、Minimum、Count操作。这样产生了4列新的数据,供其他操作。
在聚合操作编辑器Aggregate Transformation Editor,首先选择需要进行聚合操作的列,然后选中的列将会出现在下面的一个表里面在Output Alias列里面输入输出列的别名。最重要的以个设置是在Operation这一列选择聚合操作。它有一些选项。
- Group By:将数据按照某列分组
- Average:对数据列求和操作
- Count:对一组数据中非空行计算行数
- Count Distinct:对一组数据中的非空行计算非重复的行数
- Minimum:对一组数据中的数字列求最小值
- Maximum:对一组数据中的数字列求最大值
- Sum:对一组数据中的数字列求和
点击Advanced标签界面,在这个界面可以编辑转换输出。在Advanced界面可以输入聚合计算的名字,产生一个新的列。在Advanced标签界面,最关键的选择项是设置转换时的缓存,使它在一个合适的水平。例如较低水平设置为500000条,中等水平设置为5000000条,较高水平设置为25000000条。也可以使用Number of Keys属性设置具体数值。Auto Extend Factor属性设置转换可以使用的内存量,默认的值是25%,也可以设置其他选项保证RAM占用量。Warn On Division by Zero单选框用来处理求平均值时被除数是0,如果没有选择,转换失败将不会给出任何提示。
《BI那点儿事》数据流转换——聚合相关推荐
- 《BI那点儿事》数据流转换——排序
<BI那点儿事>数据流转换--排序 原文:<BI那点儿事>数据流转换--排序 排序转换允许对数据流中的数据按照某一列进行排序.这是五个常用的转换之一.连接数据源打开编辑界面,编 ...
- 《BI那点儿事》数据流转换——派生列
原文:<BI那点儿事>数据流转换--派生列 派生列转换通过对转换输入列应用表达式来创建新列值. 表达式可以包含来自转换输入的变量.函数.运算符和列的任意组合. 结果可作为新列添加,也可作为 ...
- 《BI那点儿事》数据流转换——透视
原文:<BI那点儿事>数据流转换--透视 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的.数据透视转换可以将数据规范或使它在报表中更具可读性. 通过透视列值的输入数据,透视转 ...
- 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分
<BI那点儿事>Microsoft 聚类分析算法--三国人物身份划分 原文:<BI那点儿事>Microsoft 聚类分析算法--三国人物身份划分 什么是聚类分析? 聚类分析属 ...
- 【2】flink数据流转换算子
[README] 本文记录了flink对数据的转换操作,包括 基本转换,map,flatMap,filter: 滚动聚合(min minBy max maxBy sum): 规约聚合-reduce: ...
- 《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布,献给广大的三国爱好者们...
<BI那点儿事>Microsoft 决策树算法--找出三国武将特性分布,献给广大的三国爱好者们 原文:<BI那点儿事>Microsoft 决策树算法--找出三国武将特性分布,献 ...
- 数据科学与python语言——Pandas统计分析基础(时间转换+聚合)
Pandas统计分析基础(时间转换+聚合) 实验要求一 实验二要求 全部代码 实验要求一 #M表的时间戳类型转为datetime data_Mete['TIMESTAMP']=pd.to_dateti ...
- 《BI那点儿事》三国数据分析系列——蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析...
<BI那点儿事>三国数据分析系列--蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析 原文:<BI那点儿事>三国数据分析系列--蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析 ...
- 《BI那点儿事》数据挖掘各类算法——准确性验证
<BI那点儿事>数据挖掘各类算法--准确性验证 原文:<BI那点儿事>数据挖掘各类算法--准确性验证 准确性验证示例1:--基于三国志11数据库 数据准备: 挖掘模型: 依次为 ...
- 《BI那点儿事》数据流转换——字符映射表
特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列.可以在Output Alias列中给原来的列一个别名,选择要进行的操 ...
最新文章
- 引导分区 pbr 数据分析_如何在1小时内引导您的分析
- 本是同根生,相煎何太急?
- 从Java视角理解CPU上下文切换(Context Switch)
- java数组 序列化_程序猿的日常——Java基础之clone、序列化、字符串、数组
- SQLAlchemy 一些基本操作
- [Windows编程] 通过GetModuleHandleEx 得到函数调用者所在的DLL/EXE 原创陈本峰2009-02
- hadoop简单介绍_Hadoop:简单介绍
- 台湾高僧称游戏中杀人是罪业死后要下地狱
- SQL Server2005探索之---正确使用索引
- 电商APP商品详情页设计套路(分层PSD模板)!透析UI/UE必须懂的营销设计思维!
- MySQL中将查询所得结果集的某一字段拼接成字符串
- C++中函数如何返回数组
- 2021-06-13并发线程控制方法3种
- 基于51单片机的PC机控制系统
- 怎么找网页源文件位置_无法查看网页的源文件该怎么办?
- 惠斯通电桥称重传感器检测原理
- 腾讯云点播html示例文件修改,实现视频居中效果
- 十倍业务增长下,饿了么技术如何应对(中)?
- 网络爬虫(网络蜘蛛,网络机器人)与Web安全
- Kubectl debug 调试容器
热门文章
- React Native 运行环境安装:0.6以下/以上版本的 新老项目 都适用
- Codeup_575I_剪刀石头布
- [bzoj4832][Lydsy1704月赛]抵制克苏恩
- MDI/MDIX接口
- 测量地图,给shp文件赋参考坐标系,并给mxd文档中的数据框架设置投影类型
- 从零开始,我用了两年半逆袭秋招!
- 8、kubernetes之存储卷资源
- BNUOJ 34978 汉诺塔 (概率dp)
- mac --snip 滚动截屏
- phpstudy 上怎么运行 thinkPHP ?