全图化引擎又称算子执行引擎,它的介绍可以参考从HA3到AI OS -- 全图化引擎破茧之路。本文从算子化的视角介绍了编译技术在全图化引擎中的运用。主要内容有:

1. 通过脚本语言扩展通用算子上的用户订制能力,目前这些通用算子包括scorer算子,filter算子等。这一方面侧重于编译前端,我们开发了一种嵌入引擎的脚本语言cava,解决了用户扩展引擎功能的一些痛点,包括插件的开发测试效率,兼容性,引擎版本升级效率等。

2. 通过codegen技术优化全图化引擎性能,由于全图化引擎是基于tensorflow开发,它天生具备tensorflow xla编译能力,利用kernel的fuse提升性能,这部分内容可以参考XLA Overview。xla主要面向tensorflow内置的kernel,能发挥的场景是在线预测模型算分。但是对于用户自己开发的算子,xla很难发挥作用。本文第二部分主要介绍对于自定义算子我们是如何做codegen优化的。

通用算子上的脚本语言cava

由于算子开发和组图逻辑对普通用户来说成本较高,全图化引擎内置了一些通用算子,比如说scorer算子,filter算子。这些通用算子能加载c++插件,也支持用cava脚本写的插件。关于cava可以参考这篇文章了解一下。

和c++插件相比,cava插件有如下特点:

  • 1. 类java的语法。扩大了插件开发的受众,让熟悉java的同学能快速上手使用引擎。
  • 2. 性能高。cava是强类型,编译型语言,它能和c++无损交互。这保证了cava插件的执行性能,在单值场景使用cava写的插件和c++的插件性能相当。
  • 3. 使用pool管理内存。cava的内存管理可定制,服务端应用每个请求一个pool是最高效的内存使用策略。
  • 4. 安全。对数组越界,对象访问,除零异常做了保护。
  • 5. 支持jit,编译快。支持upc时编译代码,插件的上线就和上线普通配置一样,极大的提升迭代效率
  • 6. 兼容性:由于cava的编译过程和引擎版本是强绑定的,只要引擎提供的cava类库接口不变,cava的插件的兼容性很容易得到保证。而c++插件兼容性很难保证,任何引擎内部对象内存布局的变动就可能带来兼容性问题。

scorer算子中的cava插件

cava scorer目前有如下场景在使用

  • 1. 主搜海选场景,算法逻辑可以快速上线验证
  • 2. 赛马引擎2.0的算分逻辑,赛马引擎重构后引入cava算分替代原先的战马算分
样例如下:
package test;
import ha3.*;
/** 将多值字段值累加,并乘以query里面传递的ratio,作为最后的分数* /
class DefaultScorer {MInt32Ref mref;double ratio;boolean init(IApiProvider provider) {IRefManager refManger = provider.getRefManager();mref = refManger.requireMInt32("ids");KVMapApi kv = provider.getKVMapApi();ratio = kv.getDoubleValue("ratio");//获取kvpair内参数return true;}double process(MatchDoc doc) {int score = 0;MInt32 mint = mref.get(doc);for (int i = 0; i < mint.size(); i++) {score = score + mint.get(i);}return score * ratio;}
}

其中cava scorer的算分逻辑(process函数)调用次数是doc级别的,它的执行性能和c++相比唯一的差距是多了安全保护(数组越界,对象访问,除零异常)。可以说cava是目前能嵌入c++系统执行的性能最好的脚本语言。

filter算子中cava插件

filter算子中主要是表达式逻辑,例如filter = (0.5 * a + b) > 10。以前表达式的能力较弱,只能使用算术,逻辑和关系运算符。使用cava插件可进一步扩展表达式的能力,它支持类java语法,可以定义变量,使用分支循环等。

计算 filter = (0.5 * a + b) > 10,用cava可定义如下:
class MyFunc {public boolean init(FunctionProvider provider) {return true;}public boolean process(MatchDoc doc, double a, double b) {return (0.5 * a + b) > 10;}
}
filter = MyFunc(a, b)

另外由于cava是编译执行的,和原生的解释执行的表达式相比有天然的性能优势。

关于cava前端的展望

cava是全图化引擎上面向用户需求的语言,有用户定制扩展逻辑的需求都可以考虑用通用算子+cava插件配合的模式来支持,例如全图化sql上的udf,规则引擎的匹配需求等等。

后续cava会进一步完善语言前端功能,完善类库,尽可能兼容java。依托suez和全图化引擎支持更多的业务需求。

自定义算子的codegen优化

过去几年,在OLAP领域codegen一直是一个比较热门的话题。原因在于大多数数据库系统采用的是Volcano Model模式。

其中的next()通常为虚函数调用,开销较大。全图化引擎中也有类似的codegen场景,例如统计算子,过滤算子等。此外,和xla类似,全图化引擎中也有一些场景可以通过算子融合优化性能。目前我们的codegen工作主要集中在cpu上对局部算子做优化,未来期望能在SQL场景做全图编译,并且在异构计算的编译器领域有所发展。

单算子的codegen优化

  • 1. 统计算子

例如统计语句:group_key:key,agg_fun:sum(val)#count(),按key分组统计key出现的次数和val的和。在统计算子的实现中,key的取值有一次虚函数调用,sum和count的计算是两次虚函数调用,sum count计算出来的值又需要通过matchdoc存取,而matchdoc的访问有额外的开销:一次是定位到matchdoc storage,一次是通过偏移定位到存取位置。

那么统计codegen是怎么去除虚函数调用和matchdoc访问的呢?在运行时,我们可以根据用户的查询获取字段的类型,需要统计的function等信息,根据这些信息我们可以把通用的统计实现特化成专用的统计实现。例如统计sum和count只需定义包含sum count字段的AggItem结构体,而不需要matchdoc;统计function sum和count变成了结构体成员的+=操作。

假设key和val字段的类型都是int,那么上面的统计语句最终codegen成的cava代码如下:

class AggItem {long sum0;long count1;int groupKey;
}
class JitAggregator {public AttributeExpression groupKeyExpr;public IntAggItemMap itemMap;public AggItemAllocator allocator;public AttributeExpression sumExpr0;...static public JitAggregator create(Aggregator aggregator) {....}public void batch(MatchDocs docs, uint size) {for (uint i = 0; i < size; ++i) {MatchDoc doc = docs.get(i); //由c++实现,可被inlineint key = groupKeyExpr.getInt32(doc);AggItem item = (AggItem)itemMap.get(key);if (item == null) {item = (AggItem)allocator.alloc();item.sum0 = 0;item.count1 = 0;item.groupKey = key;itemMap.add(key, (Any)item);}int sum0 = sumExpr0.getInt32(doc);item.sum0 += sum0;item.count1 += 1;}}
}

这里sum count的虚函数被替换成sum += 和count += ,matchdoc的存取变成结构体成员的读写item.sum0和item.count0。经过llvm jit编译优化之后生成的ir如下:

define void @_ZN3ha313JitAggregator5batchEP7CavaCtxPN6unsafe9MatchDocsEj(%"class.ha3::JitAggregator"* %this,%class.CavaCtx* %"@cavaCtx@", %"class.unsafe::MatchDocs"* %docs, i32 %size)
{
entry:%lt39 = icmp eq i32 %size, 0br i1 %lt39, label %for.end, label %for.body.lr.ph
for.body.lr.ph:                                   ; preds = %entry%wide.trip.count = zext i32 %size to i64br label %for.body
for.body:                                         ; preds = %for.inc, %for.body.lr.ph%lsr.iv42 = phi i64 [ %lsr.iv.next, %for.inc ], [ %wide.trip.count, %for.body.lr.ph ]%lsr.iv = phi %"class.unsafe::MatchDocs"* [ %scevgep, %for.inc ], [ %docs, %for.body.lr.ph ]%lsr.iv41 = bitcast %"class.unsafe::MatchDocs"* %lsr.iv to i64*// ... prepare call for groupKeyExpr.getInt32%7 = tail call i32 %5(%"class.suez::turing::AttributeExpressionTyped.64"* %1, i64 %6)// ... prepare call for itemMap.get%9 = tail call i8* @_ZN6unsafe13IntAggItemMap3getEP7CavaCtxi(%"class.unsafe::IntAggItemMap"* %8, %class.CavaCtx* %"@cavaCtx@", i32 %7)%eq = icmp eq i8* %9, nullbr i1 %eq, label %if.then, label %if.end10
// if (item == null) {
if.then:                                          ; preds = %for.body// ... prepare call for allocator.alloc%15 = tail call i8* @_ZN6unsafe16AggItemAllocator5allocEP7CavaCtx(%"class.unsafe::AggItemAllocator"* %14, %class.CavaCtx* %"@cavaCtx@")// item.groupKey = key;%groupKey = getelementptr inbounds i8, i8* %15, i64 16%16 = bitcast i8* %groupKey to i32*store i32 %7, i32* %16, align 4// item.sum0 = 0; item.count1 = 0;call void @llvm.memset.p0i8.i64(i8* %15, i8 0, i64 16, i32 8, i1 false)// ... prepare call for itemMap.addtail call void @_ZN6unsafe13IntAggItemMap3addEP7CavaCtxiPNS_3AnyE(%"class.unsafe::IntAggItemMap"* %17, %class.CavaCtx* %"@cavaCtx@", i32 %7, i8* %15)br label %if.end10
if.end10:                                         ; preds = %if.end, %for.body%item.0.in = phi i8* [ %15, %if.end ], [ %9, %for.body ]%18 = bitcast %"class.unsafe::MatchDocs"* %lsr.iv to i64*// ... prepare call for sumExpr0.getInt32%26 = tail call i32 %24(%"class.suez::turing::AttributeExpressionTyped.64"* %20, i64 %25)// item.sum0 += sum0; item.count1 += 1;%27 = sext i32 %26 to i64%28 = bitcast i8* %item.0.in to <2 x i64>*%29 = load <2 x i64>, <2 x i64>* %28, align 8%30 = insertelement <2 x i64> undef, i64 %27, i32 0%31 = insertelement <2 x i64> %30, i64 1, i32 1%32 = add <2 x i64> %29, %31%33 = bitcast i8* %item.0.in to <2 x i64>*store <2 x i64> %32, <2 x i64>* %33, align 8br label %for.inc
for.inc:                                          ; preds = %if.then, %if.end10%scevgep = getelementptr %"class.unsafe::MatchDocs", %"class.unsafe::MatchDocs"* %lsr.iv, i64 8%lsr.iv.next = add nsw i64 %lsr.iv42, -1%exitcond = icmp eq i64 %lsr.iv.next, 0br i1 %exitcond, label %for.end, label %for.body
for.end:                                          ; preds = %for.inc, %entryret void
}

codegen的代码中有不少函数是通过c++实现的,如docs.get(i),itemMap.get(key)等。但是优化后的ir中并没有docs.get(i)的函数调用,这是由于经常调用的c++中实现的函数会被提前编译成bc,由cava编译器加载,经过llvm inline优化pass后被消除。

可以认为cava代码和llvm ir基本能做到无损映射(cava中不容易实现逻辑可由c++实现,预编译成bc加载后被inline),有了cava这一层我们可以用常规面向对象的编码习惯来做codegen,不用关心llvm api细节,让codegen门槛进一步降低。

这个例子中,统计规模是100w文档1w个key时,线下测试初步结论是latency大约能降1倍左右(54ms->27ms),有待表达式计算进一步优化。

  • 2. 过滤算子

在通用过滤算子中,表达式计算是典型的可被codegen优化的场景。例如ha3的filter语句:filter=(a + 2* b - c) > 0:

表达式计算是通过AttributeExpression实现的,AttributeExpression的evaluate是虚函数。对于单doc接口我们可以用和统计类似的方式,使用cava对表达式计算做codegen。

对于批量接口,和统计不同的是,表达式的批量计算更容易运用向量化优化,利用cpu的simd指令,使计算效率有成倍的提升。但是并不是所有的表达式都能使用一致的向量化优化方法,比如filter= a > 0 AND b < 0这类表达式,有短路逻辑,向量化会带来不必要的计算。

因此表达式的编译优化需要有更好的codegen抽象,我们发现Halide能比较好的满足我们的需求。Halide的核心思想:算法描述(做什么 ir)和性能优化(怎么做 schedule)解耦。这种解耦能让我们更灵活的定制优化策略,比如某些场景走向量化,某些场景走普通的codegen;更进一步,不同计算平台上使用不同的优化策略也成为可能。

  • 3. 倒排召回算子

在seek算子中,倒排召回是通过QueryExecutor实现的,QueryExecutor的seek是虚函数。例如query= a AND b OR c。

QueryExecutor的And Or AndNot有比较复杂的逻辑,虚函数的开销相对占比没有表达式计算那么大,之前用vtune做过预估,seek虚函数调用开销占比约10%(数字不一定准确,inline效果没法评估)。和精确统计,表达式计算相比,query的组合空间巨大,seek的codegen得更多的考虑对高性价比query做编译优化。

  • 4. 海选与排序算子

在ha3引擎中海选和精排逻辑中有大量比较操作。例如sort=+RANK;id字句,对应的compare函数是Rank Compartor和Id Compartor的联合比较。compare的函数调用可被codegen掉,并且还可和stl算法联合inline。std::sort使用非inline的comp函数带来的开销可以参考如下例子:

bool myfunction (int i,int j) { return (i<j); }int docCount = 200000;
std::random_device rd;
std::mt19937_64 mt(rd());
std::uniform_int_distribution<int> keyDist(0, 200000);
std::vector<int> myvector1;
for (int i = 0 ; i < docCount; i++) {myvector1.push_back(keyDist(mt));
}
std::vector<int> myvector2 = myvector1;std::sort (myvector1.begin(), myvector1.end()); // cost 15.475ms
std::sort (myvector2.begin(), myvector2.end(), myfunction); // cost 19.757ms

对20w随机数排序,简单的比较inline带来30%的提升。当然在引擎场景,由于比较逻辑复杂,这部分收益可能不会太多。

算子的fuse和codegen

算子的fuse是tensorflow xla编译的核心思想,在全图化场景我们有一些自定义算子也可以运用这个思想,例如feature generator。

fg特征生成是模型训练中很重要的一个环节。在线fg是以子图+配置形式描述计算,这部分的codegen能使数据从索引直接计算到tensor上,省去了很多环节中间数据的拷贝。目前这部分codegen工作可以参考这篇文章

关于编译优化的展望

  • SQL场景全图的编译执行

数据库领域Whole-stage Code Generation早被提出并应用,例如Apache Spark as a Compiler;还有现在比较火的GPU数据库Mapd,把整个执行计划编译成架构无关的中间表示(llvm ir),借助llvm编译到不同的target执行。

从实现上看,SQL场景的全图编译执行对全图化引擎还有更多意义,比如可以省去tensorflow算子执行带来的线程切换的开销,可以去除算子间matchdoc传递(matchdoc作为通用的数据布局性能较差)带来的性能损耗。

  • 面向异构计算的编译器

随着摩尔定律触及天花板,未来异构计算一定是一个热门的领域。SQL大规模数据分析和在线预测就是异构计算可以发挥作用的典型场景,比如分析场景大数据量统计,在线预测场景深度模型大规模并行计算。cpu驱动其他计算平台如gpu fpga,相互配合各自做自己擅长的事情,在未来有可能是常态。这需要为开发人员提供更好的编程接口。

全图化引擎已经领先了一步,集成了tensorflow计算框架,天生具备了异构计算的能力。但在编译领域,通用的异构计算编程接口还远未到成熟的地步。工业界和学术界有不少尝试,比如tensorflow的xla编译框架,TVM,Weld等等。

借用weld的概念图表达一下异构计算编译器设计的愿景:让数据分析,深度学习,图像算法等能用统一易用的编程接口充分发挥异构计算平台的算力。

总结

编译技术已经开始在引擎的用户体验,迭代效率,性能优化中发挥作用,后续会跟着全图化引擎的演进不断发展。能做的事情很多,挑战很大,有感兴趣的同学可以联系我们探讨交流。

参考

  • Balancing vectorized query execution with bandwidth-optimized storage, Chapter 3
  • Efficiently Compiling Efficient Query Plans for Modern Hardware
  • TensorFlow编译优化策略 - XLA
  • Weld: Rethinking the Interface Between Data-Intensive Libraries
  • TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

全图化引擎(AI·OS)中的编译技术相关推荐

  1. 全图化引擎(AI·OS)中的编译技术

    全图化引擎又称算子执行引擎,它的介绍可以参考从HA3到AI OS - 全图化引擎破茧之路.本文从算子化的视角介绍了编译技术在全图化引擎中的运用主要内容有: 1.通过脚本语言扩展通用算子上的用户订制能力 ...

  2. 大数据与 AI 生态中的开源技术总结

    本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...

  3. 十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开!

    阿里妹导读:9月28日,阿里搜索迎来了十周年纪念日.久经考验的搜索与推荐平台,支撑了淘宝.天猫.优酷乃至海外电商在内整个阿里集团的推荐与搜索的业务,引导成交占据了集团GMV的绝大部分份额.随着智能化时 ...

  4. 追求极致的AI·OS——AI·OS引擎平台

    AI·OS技术栈 2018年9月底,搜索事业部举办了一场十年技术峰会.在这场峰会上,我们正式将搜索的在线服务由iSearch5升级到AI·OS大数据深度学习在线服务体系.这次名称的变化,体现的是搜索技 ...

  5. 【Android 插件化】使用 PluginKiller 帮助应用开发者规避发布的 APK 安装包被作为插件的风险 ( 验证应用是否运行在插件化引擎中 )

    文章目录 前言 一.应用开发者规避 APK 安装包被作为插件 二.检测插件化环境 1.检查 AndroidManifest.xml 清单文件 2.检查 运行时 信息 3.检查生成的目录 4.检查组件 ...

  6. 淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS

    简介:揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践. 作者:阿里巴巴搜索推荐事业部高级研究员 沈加翔 一.三位一体的在线服务体系AI·OS介绍 AI·OS(Art ...

  7. (三)JVM成神路之全面详解执行引擎子系统与JIT即时编译原理

    引言 执行引擎子系统是JVM的重要组成部分之一,在JVM系列的开篇曾提到:JVM是一个架构在平台上的平台,虚拟机是一个相似于"物理机"的概念,与物理机一样,都具备代码执行的能力.但 ...

  8. JVM成神路之全面详解执行引擎子系统、JIT即时编译原理与分派实现

    引言 执行引擎子系统是JVM的重要组成部分之一,在JVM系列的开篇曾提到:JVM是一个架构在平台上的平台,虚拟机是一个相似于"物理机"的概念,与物理机一样,都具备代码执行的能力.但 ...

  9. 百度云「升级战」:王海峰站台,新架构全面AI化,AI和知识中台登场

    5月18日,"ABC SUMMIT 2020百度夏季云智峰会"在线上召开.刚刚经历了人事变动的百度云迎来重磅升级,大会以"百度智能云加速产业智能化"为主题,百度 ...

最新文章

  1. uva 11020 - Efficient Solutions
  2. C++Pascal‘s Triangle杨辉三角的实现算法
  3. 2017-2018-1 20155332实验三 实时系统报告
  4. windows下用pycharm安装tensorflow简易教程
  5. 在hive的beeline下,Error: org.apache.thrift.transport.TTransportException: java.net.SocketException: Bro
  6. selenium + python自动化测试unittest框架学习(一)selenium原理及应用
  7. mysql start
  8. gzip算法源代码 - tankzhouqiang - 博客园
  9. VedioCapture
  10. maya镜头批渲染插件 v1.0.8 更新下载及教程
  11. 计算机睡眠和休眠的区别win10,win10睡眠和休眠有何不同_win10休眠和睡眠的区别...
  12. 文字转语音,有什么软件好用?
  13. 解的存在唯一性定理与逐步逼近法
  14. 零基础新手如何学习SEO
  15. wxj项目的开发一点记录
  16. android中小火箭动态喷射动画的简单实现
  17. 一种血氧仪方案算法探讨
  18. Cesium 日常问题整理
  19. ​几张图看懂区块链到底是什么?
  20. 基于springboot的图书借阅管理系统

热门文章

  1. jquery获取img的src值_JQuery
  2. 如果“定位BUG”有等级的话,你是什么段位?
  3. python 开发工具_Python开发工具之神兵利器
  4. python导入模块报错“ImportError: No module namedXXX”
  5. 可用性测试(用户体验)测试
  6. linux删除5天前文件和目录,Linux Shell命令定时删除指定目录下n天前的文件
  7. 2FSK频谱matlab,2FSK信号的频谱分析及解调的实现.doc
  8. python里的class_Python中的Class的讨论
  9. 高斯金字塔 matlab,图像拼接中 高斯金字塔的建立 matlab程序详细解释 现金奖励...
  10. watch the fixed address in qt