圆桌会回顾 | SecureBoost:挑战千万级别样本训练之性能提升篇
【私信获取圆桌会视频】
5月26日,FATE开源社区第九期圆桌会圆满落幕。本次圆桌会,微众陈伟敬为我们分享了SecureBoost:挑战千万级别样本训练之性能提升篇。
接下来带大家回顾经典问答环节,为新老朋友答疑解惑。
问答环节
● Q1:
想问下fast-sbt在不同数据上和hetero-sbt对比?
● A1:
以fast sbt的mix模式为例,mix模式下,一代用guest的特征建树,一代用host的特征建树,以此往复,这样很像是跑hetero-sbt时对特征做一个列采样。我们在几份样例数据上测试fast-sbt,最终达到的效果是差不多的,但是fast-sbt它可能会需要多跑一些代数,最终才能达到hetero-sbt的效果。
● Q2:
为什么没有使用lightGBM的优化呢,Xgboost只是lifewise,leafwise ?
● A2:
Xgboost是层优先的,layer-wise,是一层一层的构建的,lightgbm的是leafwise,lightgbm用到的goss, 直方图相减FATE-1.6都是用到了的。
● Q3:
1.7的升级会在架构上和1.6有很大差别吗?还是侧重于训练过程优化?
● A3:
4月圆桌我们有对1.7进行展望,有兴趣可以去回顾(文末有链接),1.7fate-flow等会拆分,架构会有比较大的变动。
● Q4:
想问下sbt安全性问题,目前像mix模式, host方的完整树结构是需要发给guest,这会不会有一定安全性问题。
● A4:
mix模式,host树结构是不会发给guest的。
● Q5:
有没有考虑实现密文下比大小的操作?这样host就不需要回传分裂点给guest。
● A5:
是在host做分裂点收益比较吗?目前在同态加密的情况下,在host没有办法计算出分裂点收益,所以也就没办法进行比较了。
● Q6:
用eggroll来做的计算框架,用单机standalone的时候,按照我的CPU的核数来分配的,就是单机的,后来我变成集群模式的时候,也是相当于核数有几台就扩充了几台,总核数都利用上,但是在效果上发现训练时长甚至比原来单机的时间还要长,不知道有没有这方面的一个排查问题的思路?
● A6:
配置里面会有一些并发参数,有两个参数,一个是 computing_partition: 数据的分块,分了几个partition;还有一个是task_cores:并行的时候,用上多少个核,如果没有配上的话,确实有可能是跑得比较慢的,另外一个情况是集群模式下有调度和网络传输开销。
● Q7:
(接上一个问题)这两个参数都是有配置的,而且配置了48,和我们的核数符合。
● A7:
在运行Hetero-SBT的时候,我们这边也碰到一种情况,partition越大的时候,写出的时候,每个partition就会涉及一个加密直方图写出的过程,这个过程每个partition根据key将结果分发到不同的nodemanager上,这是一个shuffle的过程。那么这种情况下涉及IO开销和调度开销。所以当你数据量不是很大,计算已经很快了,那增大partition可能会导致其他方面有出现瓶颈。
● Q8:
(接上一个问题)所以其实有的时候是需要去减少分区数量?
● A8:
是的,数据量比较小,或者计算性能提升到极致后,会导致有其他瓶颈的情况出现。
● Q9:
(接上一个问题)所以你建议的一个优化的方案就是说适当去减小分区数吗?
● A9:
理论上来说计算和IO调度等消耗是有一个平衡点的,并不是无限的增大资源,就一定会提升速度。
以下为本次圆桌会的部分内容介绍,添加小助手可获取详细资料:
以上就是本次圆桌会互动环节内容。
想报名参与下一期的圆桌会?
或者对以上内容还有疑问,
私信获取协助。
圆桌会回顾 | SecureBoost:挑战千万级别样本训练之性能提升篇相关推荐
- mysql数据库千万级别数据的查询优化和分页测试
原文地址:原创 mysql数据库千万级别数据的查询优化和分页测试作者:于堡舰 本文为本人最近利用几个小时才分析总结出的原创文章,希望大家转载,但是要注明出处 http://blog.sina.co ...
- 实现pv uv统计_程序员修仙之路优雅快速的统计千万级别uv
菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...
- mysql插入数据返回主键值_Mysql千万级别数据批量插入只需简单三步!
第一步:配置my.ini文件 文件中配置 bulk_insert_buffer_size=120M 或者更大 将insert语句的长度设为最大. Max_allowed_packet=1M Net_b ...
- B+Tree索引为什么可以支持千万级别数据量的查找——讲讲mysql索引的底层数据结构
MySQL索引底层数据结构 索引是存储引擎快速找到记录的一种数据结构 一. 有索引与没索引的差距 先来看一张图: 左边是没有索引的情况,右边是作为col2字段 二叉树索引的情况. 假如执行查找(假设表 ...
- 程序员修仙之路--优雅快速的统计千万级别uv
菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...
- 千万级别数据查询优化_从千万级数据查询来聊一聊索引结构和数据库原理
在日常工作中我们不可避免地会遇到慢SQL问题,比如笔者在之前的公司时会定期收到DBA彪哥发来的Oracle AWR报告,并特别提示我某条sql近阶段执行明显很慢,可能要优化一下等.对于这样的问题通常大 ...
- 阿里云构建千万级别架构演变之路
阿里云构建千万级别架构演变之路 摘要: 随着云计算的到来,当前已经从IT时代向DT时代开始转型.在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架 ...
- python 千万级数据处理_Python实现 ! 千万级别数据处理
今天分享一个数据清洗小技巧,可以让你在遇到百万.千万级别数据的时候游刃有余.先来说说问题的背景 现在有一个 csv 格式的数据集,大概 2千万条 左右的样子,存储的是用户的网络交互数据,其中电话号码作 ...
- java千万级别数据处理(2)-千万级别FTP下载
欢迎大家访问我的个人网站 萌萌的IT人,后续所有的文章都会在此发布 ------------------------------------------------------------------ ...
最新文章
- 【原】IOS文件操作
- 如何运行SpringBoot项目
- 一个棒棒糖引发的。。。
- php 实验室管理系统,生物信息实验室管理系统-Metalims安装
- 独立成分分析 ( ICA ) 与主成分分析 ( PCA )再解析
- ajax获取网页新闻,基于Ajax的新闻网页动态数据的抓取方法及系统
- vue项目没有router文件夹_vueRouter没有报错,但是页面渲染空白
- 【渝粤教育】电大中专电子商务网站建设与维护 (9)作业 题库
- new关键字对类成员的阻断
- WINDOWS 如何关闭3306端口
- 机房布线的最高境界 | 最后的暗黑系,真是亮瞎眼 ​
- iheatmapr包:可交互的热图绘制方法
- vueCli3中使用代理,点击页面的刷新按钮时报错
- mac修改jupyter notebook启动时的打开目录
- bzoj 1023: [SHOI2008]cactus仙人掌图(仙人掌求直径)
- php网站背景颜色代码,html如何设置背景颜色?
- 暴走湖北五城,聊聊我的湖北印象
- python编写回文程序上海自来水来自海_回文句式初探:“上海自来水来自海上”...
- 论文笔记:The Effectiveness of Data Augmentation in Image Classification using Deep Learning
- Quasi_Newton
热门文章
- 2018年最新PHP面试题
- 设计模式之责任链模式
- JQuery之Ajax方法
- error hawk@0.10.2: The engine “node“ is incompatible with this module. Expected versi
- lol服务器位置2017,2017LOL转区系统在哪儿 LOL12月转区系统地址入口
- 一级域名怎么申请二级域名
- Python 实时盯盘并在股价突破时通过微信通知(tushare的使用)
- iCamera App Kit 使用说明
- Techniques and Applications for Crawling, Ingesting and Analyzing Blockchain Data 中文翻译
- 易语言魔兽世界怀旧服自动钓鱼源码