问答环节

● Q1：

想问下fast-sbt在不同数据上和hetero-sbt对比？

● A1：

以fast sbt的mix模式为例，mix模式下，一代用guest的特征建树，一代用host的特征建树，以此往复，这样很像是跑hetero-sbt时对特征做一个列采样。我们在几份样例数据上测试fast-sbt，最终达到的效果是差不多的，但是fast-sbt它可能会需要多跑一些代数，最终才能达到hetero-sbt的效果。

● Q2：

为什么没有使用lightGBM的优化呢，Xgboost只是lifewise，leafwise ?

● A2：

Xgboost是层优先的，layer-wise，是一层一层的构建的，lightgbm的是leafwise，lightgbm用到的goss, 直方图相减FATE-1.6都是用到了的。

● Q3：

1.7的升级会在架构上和1.6有很大差别吗？还是侧重于训练过程优化？

● A3：

4月圆桌我们有对1.7进行展望，有兴趣可以去回顾（文末有链接），1.7fate-flow等会拆分，架构会有比较大的变动。

● Q4：

想问下sbt安全性问题，目前像mix模式, host方的完整树结构是需要发给guest，这会不会有一定安全性问题。

● A4：

mix模式，host树结构是不会发给guest的。

● Q5：

有没有考虑实现密文下比大小的操作？这样host就不需要回传分裂点给guest。

● A5：

是在host做分裂点收益比较吗？目前在同态加密的情况下，在host没有办法计算出分裂点收益，所以也就没办法进行比较了。

● Q6：

用eggroll来做的计算框架，用单机standalone的时候，按照我的CPU的核数来分配的，就是单机的，后来我变成集群模式的时候，也是相当于核数有几台就扩充了几台，总核数都利用上，但是在效果上发现训练时长甚至比原来单机的时间还要长，不知道有没有这方面的一个排查问题的思路？

● A6：

配置里面会有一些并发参数，有两个参数，一个是 computing_partition: 数据的分块，分了几个partition；还有一个是task_cores：并行的时候，用上多少个核，如果没有配上的话，确实有可能是跑得比较慢的，另外一个情况是集群模式下有调度和网络传输开销。

● Q7：

（接上一个问题）这两个参数都是有配置的，而且配置了48，和我们的核数符合。

● A7：

在运行Hetero-SBT的时候，我们这边也碰到一种情况，partition越大的时候，写出的时候，每个partition就会涉及一个加密直方图写出的过程，这个过程每个partition根据key将结果分发到不同的nodemanager上，这是一个shuffle的过程。那么这种情况下涉及IO开销和调度开销。所以当你数据量不是很大，计算已经很快了，那增大partition可能会导致其他方面有出现瓶颈。

● Q8：

（接上一个问题）所以其实有的时候是需要去减少分区数量？

● A8：

是的，数据量比较小，或者计算性能提升到极致后，会导致有其他瓶颈的情况出现。

● Q9：

（接上一个问题）所以你建议的一个优化的方案就是说适当去减小分区数吗？

● A9：

理论上来说计算和IO调度等消耗是有一个平衡点的，并不是无限的增大资源，就一定会提升速度。

以下为本次圆桌会的部分内容介绍，添加小助手可获取详细资料：

以上就是本次圆桌会互动环节内容。

想报名参与下一期的圆桌会？

或者对以上内容还有疑问，

私信获取协助。

圆桌会回顾 | SecureBoost：挑战千万级别样本训练之性能提升篇相关推荐

mysql数据库千万级别数据的查询优化和分页测试
原文地址:原创 mysql数据库千万级别数据的查询优化和分页测试作者:于堡舰本文为本人最近利用几个小时才分析总结出的原创文章,希望大家转载,但是要注明出处 http://blog.sina.co ...
实现pv uv统计_程序员修仙之路优雅快速的统计千万级别uv
菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...
mysql插入数据返回主键值_Mysql千万级别数据批量插入只需简单三步！
第一步:配置my.ini文件文件中配置 bulk_insert_buffer_size=120M 或者更大将insert语句的长度设为最大. Max_allowed_packet=1M Net_b ...
B+Tree索引为什么可以支持千万级别数据量的查找——讲讲mysql索引的底层数据结构
MySQL索引底层数据结构索引是存储引擎快速找到记录的一种数据结构一. 有索引与没索引的差距先来看一张图: 左边是没有索引的情况,右边是作为col2字段二叉树索引的情况. 假如执行查找(假设表 ...
程序员修仙之路--优雅快速的统计千万级别uv
菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己 ...
千万级别数据查询优化_从千万级数据查询来聊一聊索引结构和数据库原理
在日常工作中我们不可避免地会遇到慢SQL问题,比如笔者在之前的公司时会定期收到DBA彪哥发来的Oracle AWR报告,并特别提示我某条sql近阶段执行明显很慢,可能要优化一下等.对于这样的问题通常大 ...
阿里云构建千万级别架构演变之路
阿里云构建千万级别架构演变之路摘要: 随着云计算的到来,当前已经从IT时代向DT时代开始转型.在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架 ...
python 千万级数据处理_Python实现 ! 千万级别数据处理
今天分享一个数据清洗小技巧,可以让你在遇到百万.千万级别数据的时候游刃有余.先来说说问题的背景现在有一个 csv 格式的数据集,大概 2千万条左右的样子,存储的是用户的网络交互数据,其中电话号码作 ...
java千万级别数据处理(2)-千万级别FTP下载
欢迎大家访问我的个人网站萌萌的IT人,后续所有的文章都会在此发布 ------------------------------------------------------------------ ...

圆桌会回顾 | SecureBoost：挑战千万级别样本训练之性能提升篇

问答环节

圆桌会回顾 | SecureBoost：挑战千万级别样本训练之性能提升篇相关推荐

最新文章

热门文章