【私信获取圆桌会视频】

5月26日,FATE开源社区第九期圆桌会圆满落幕。本次圆桌会,微众陈伟敬为我们分享了SecureBoost:挑战千万级别样本训练之性能提升篇。

接下来带大家回顾经典问答环节,为新老朋友答疑解惑。

问答环节

● Q1:

想问下fast-sbt在不同数据上和hetero-sbt对比?

● A1:

以fast sbt的mix模式为例,mix模式下,一代用guest的特征建树,一代用host的特征建树,以此往复,这样很像是跑hetero-sbt时对特征做一个列采样。我们在几份样例数据上测试fast-sbt,最终达到的效果是差不多的,但是fast-sbt它可能会需要多跑一些代数,最终才能达到hetero-sbt的效果。


● Q2:

为什么没有使用lightGBM的优化呢,Xgboost只是lifewise,leafwise ?

● A2:

Xgboost是层优先的,layer-wise,是一层一层的构建的,lightgbm的是leafwise,lightgbm用到的goss, 直方图相减FATE-1.6都是用到了的。


● Q3:

1.7的升级会在架构上和1.6有很大差别吗?还是侧重于训练过程优化?

● A3:

4月圆桌我们有对1.7进行展望,有兴趣可以去回顾(文末有链接),1.7fate-flow等会拆分,架构会有比较大的变动。


● Q4:

想问下sbt安全性问题,目前像mix模式, host方的完整树结构是需要发给guest,这会不会有一定安全性问题。

● A4:

mix模式,host树结构是不会发给guest的。


● Q5:

有没有考虑实现密文下比大小的操作?这样host就不需要回传分裂点给guest。

● A5:

是在host做分裂点收益比较吗?目前在同态加密的情况下,在host没有办法计算出分裂点收益,所以也就没办法进行比较了。


● Q6:

用eggroll来做的计算框架,用单机standalone的时候,按照我的CPU的核数来分配的,就是单机的,后来我变成集群模式的时候,也是相当于核数有几台就扩充了几台,总核数都利用上,但是在效果上发现训练时长甚至比原来单机的时间还要长,不知道有没有这方面的一个排查问题的思路?

● A6:

配置里面会有一些并发参数,有两个参数,一个是 computing_partition: 数据的分块,分了几个partition;还有一个是task_cores:并行的时候,用上多少个核,如果没有配上的话,确实有可能是跑得比较慢的,另外一个情况是集群模式下有调度和网络传输开销。


● Q7:

(接上一个问题)这两个参数都是有配置的,而且配置了48,和我们的核数符合。

● A7:

在运行Hetero-SBT的时候,我们这边也碰到一种情况,partition越大的时候,写出的时候,每个partition就会涉及一个加密直方图写出的过程,这个过程每个partition根据key将结果分发到不同的nodemanager上,这是一个shuffle的过程。那么这种情况下涉及IO开销和调度开销。所以当你数据量不是很大,计算已经很快了,那增大partition可能会导致其他方面有出现瓶颈。


● Q8:

(接上一个问题)所以其实有的时候是需要去减少分区数量?

● A8:

是的,数据量比较小,或者计算性能提升到极致后,会导致有其他瓶颈的情况出现。


● Q9:

(接上一个问题)所以你建议的一个优化的方案就是说适当去减小分区数吗?

● A9:

理论上来说计算和IO调度等消耗是有一个平衡点的,并不是无限的增大资源,就一定会提升速度。


以下为本次圆桌会的部分内容介绍,添加小助手可获取详细资料:

以上就是本次圆桌会互动环节内容。

想报名参与下一期的圆桌会?

或者对以上内容还有疑问,

私信获取协助。

圆桌会回顾 | SecureBoost:挑战千万级别样本训练之性能提升篇相关推荐

  1. mysql数据库千万级别数据的查询优化和分页测试

    原文地址:原创 mysql数据库千万级别数据的查询优化和分页测试作者:于堡舰  本文为本人最近利用几个小时才分析总结出的原创文章,希望大家转载,但是要注明出处  http://blog.sina.co ...

  2. 实现pv uv统计_程序员修仙之路优雅快速的统计千万级别uv

    菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...

  3. mysql插入数据返回主键值_Mysql千万级别数据批量插入只需简单三步!

    第一步:配置my.ini文件 文件中配置 bulk_insert_buffer_size=120M 或者更大 将insert语句的长度设为最大. Max_allowed_packet=1M Net_b ...

  4. B+Tree索引为什么可以支持千万级别数据量的查找——讲讲mysql索引的底层数据结构

    MySQL索引底层数据结构 索引是存储引擎快速找到记录的一种数据结构 一. 有索引与没索引的差距 先来看一张图: 左边是没有索引的情况,右边是作为col2字段 二叉树索引的情况. 假如执行查找(假设表 ...

  5. 程序员修仙之路--优雅快速的统计千万级别uv

    菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...

  6. 千万级别数据查询优化_从千万级数据查询来聊一聊索引结构和数据库原理

    在日常工作中我们不可避免地会遇到慢SQL问题,比如笔者在之前的公司时会定期收到DBA彪哥发来的Oracle AWR报告,并特别提示我某条sql近阶段执行明显很慢,可能要优化一下等.对于这样的问题通常大 ...

  7. 阿里云构建千万级别架构演变之路

    阿里云构建千万级别架构演变之路 摘要: 随着云计算的到来,当前已经从IT时代向DT时代开始转型.在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架 ...

  8. python 千万级数据处理_Python实现 ! 千万级别数据处理

    今天分享一个数据清洗小技巧,可以让你在遇到百万.千万级别数据的时候游刃有余.先来说说问题的背景 现在有一个 csv 格式的数据集,大概 2千万条 左右的样子,存储的是用户的网络交互数据,其中电话号码作 ...

  9. java千万级别数据处理(2)-千万级别FTP下载

    欢迎大家访问我的个人网站 萌萌的IT人,后续所有的文章都会在此发布 ------------------------------------------------------------------ ...

最新文章

  1. 【原】IOS文件操作
  2. 如何运行SpringBoot项目
  3. 一个棒棒糖引发的。。。
  4. php 实验室管理系统,生物信息实验室管理系统-Metalims安装
  5. 独立成分分析 ( ICA ) 与主成分分析 ( PCA )再解析
  6. ajax获取网页新闻,基于Ajax的新闻网页动态数据的抓取方法及系统
  7. vue项目没有router文件夹_vueRouter没有报错,但是页面渲染空白
  8. 【渝粤教育】电大中专电子商务网站建设与维护 (9)作业 题库
  9. new关键字对类成员的阻断
  10. WINDOWS 如何关闭3306端口
  11. 机房布线的最高境界 | 最后的暗黑系,真是亮瞎眼 ​
  12. iheatmapr包:可交互的热图绘制方法
  13. vueCli3中使用代理,点击页面的刷新按钮时报错
  14. mac修改jupyter notebook启动时的打开目录
  15. bzoj 1023: [SHOI2008]cactus仙人掌图(仙人掌求直径)
  16. php网站背景颜色代码,html如何设置背景颜色?
  17. 暴走湖北五城,聊聊我的湖北印象
  18. python编写回文程序上海自来水来自海_回文句式初探:“上海自来水来自海上”...
  19. 论文笔记:The Effectiveness of Data Augmentation in Image Classification using Deep Learning
  20. Quasi_Newton

热门文章

  1. 2018年最新PHP面试题
  2. 设计模式之责任链模式
  3. JQuery之Ajax方法
  4. error hawk@0.10.2: The engine “node“ is incompatible with this module. Expected versi
  5. lol服务器位置2017,2017LOL转区系统在哪儿 LOL12月转区系统地址入口
  6. 一级域名怎么申请二级域名
  7. Python 实时盯盘并在股价突破时通过微信通知(tushare的使用)
  8. iCamera App Kit 使用说明
  9. Techniques and Applications for Crawling, Ingesting and Analyzing Blockchain Data 中文翻译
  10. 易语言魔兽世界怀旧服自动钓鱼源码