MLSQL解决了什么问题
七月 上海 | 高性能计算之GPU CUDA培训
7月27-29日三天密集式学习 快速带你入门阅读全文>
正文共1259个字,预计阅读时间8分钟。
先看看做算法有哪些痛点(我们假设大部分算法的代码都是基于Python的):
1、项目难以重现,可阅读性和环境要求导致能把另外一个同事写的python项目运行起来不得不靠运气
2、和大数据平台衔接并不容易,需要让研发重新做工程实现,导致落地周期变长。
3、训练时数据预处理/特征化无法在预测时复用
4、集成到流式,批处理和提供API服务都不是一件容易的事情
5、代码/算法复用级别有限,依赖于算法自身的经验以及自身的工具箱,团队难以共享。
6、其他团队很难接入算法的工作
MLSQL如何解决这些问题呢?
统一交互语言
MLSQL提供了一套SQL的超集的DSL语法MLSQL,数据处理,模型训练,模型预测部署等都是以MLSQL语言交互,该语言简单易懂,无论算法,分析师,甚至运营都能看懂,极大的减少了团队的沟通成本,同时也使得更多的人可以做算法方面的工作。
数据预处理/算法模块化
所有较为复杂的数据预处理和算法都是模块化的,通过函数以及纯SQL来进行衔接。比如:
1-- load data 2load parquet.`${rawDataPath}` as orginal_text_corpus; 3-- select only columns we care 4select feature,label from orginal_text_corpus as orginal_text_corpus; 5-- feature enginere moduel 6train zhuml_orginal_text_corpus as TfIdfInPlace.`${tfidfFeaturePath}` 7where inputCol="content" 8and `dic.paths`="/data/dict_word.txt" 9and stopWordPath="/data/stop_words"10and nGrams="2";11-- load data12load parquet.`${tfidfFeaturePath}/data` as tfidfdata;13-- algorithm module14train zhuml_corpus_featurize_training as PythonAlg.`${modelPath}` 15where pythonScriptPath="${sklearnTrainPath}"16-- kafka params for log17and `kafkaParam.bootstrap.servers`="${kafkaDomain}"18and `kafkaParam.topic`="test"19and `kafkaParam.group_id`="g_test-2"20and `kafkaParam.userName`="pi-algo"21-- distribute data22and enableDataLocal="true"23and dataLocalFormat="json"24-- sklearn params25and `fitParam.0.moduleName`="sklearn.svm"26and `fitParam.0.className`="SVC"27and `fitParam.0.featureCol`="features"28and `fitParam.0.labelCol`="label"29and `fitParam.0.class_weight`="balanced"30and `fitParam.0.verbose`="true"3132and `fitParam.1.moduleName`="sklearn.naive_bayes"33and `fitParam.1.className`="GaussianNB"34and `fitParam.1.featureCol`="features"35and `fitParam.1.labelCol`="label"36and `fitParam.1.class_weight`="balanced"37and `fitParam.1.labelSize`="2"3839-- python env40and `systemParam.pythonPath`="python"41and `systemParam.pythonParam`="-u"42and `systemParam.pythonVer`="2.7";
这段小脚本脚本完成了数据加载,特征工程,最后的训练。所有以train开头的,都是模块,以select 开头的都是标准sql,以load开头的则是各种数据源的加载。
在MLSQL中,任何一个模块都有两个产出:模型和函数。训练时该模块会产生一个对应的模型,预测时该模型会提供一个函数,从而实现
对训练阶段的数据处理逻辑,在预测时能进行复用。
算法训练的模型可以直接部署成一个预测函数。
标准遵循
所有数据处理模块,算法模块,都有标准的暴露参数的方式,也就是前面例子类似下面的句子:
1and `fitParam.0.labelCol`="label"2and `fitParam.0.class_weight`="balanced"3and `fitParam.0.verbose`="true"
比如该算法暴露了class_weight,labelCol,verbose等参数。所有人开发的算法模块和数据处理模块都可以很好的进行复用。
分布式和单机多种部署形态
MLSQL是基于Spark改造而成,这就直接继承了Spark的多个优点:
你可以在MLSQL里获取基本上大部分存储的支持,比如ES,MySQL,Parquet,ORC,JSON,CSV等等
你可以部署在多种环境里,比如Yarn,Mesos,Local等模式
数据处理模块/算法模型易于部署
同行启动一个local模式的MLSQL Server,然后注册我们训练的时候使用到的数据处理模块和算法模块,每个模块都会产生一个函数,接着就能通过http接口传递一个函数嵌套的方式完成一个pipeline的使用了。对于函数我们确保其响应速度,一般都是在毫秒级。
注册就是一个简单的register语句:
1-- transform model into udf2register PythonAlg.`${modelPath}` as topic_spam_predict options 3pythonScriptPath="${sklearnPredictPath}"4;
支持所有提供了Python语言接口的算法框架的集成
只要实现MLSQL的标准规范,你就能够轻而易举的将各种框架集成到MLSQL中。目前已经支持SKlearn,同时有Keras图片处理等相关例子。算法可以专注于算法模块的研发,研发可以专注于数据处理模块的开发,所有的人都可以通过MLSQL复用这些模块,完成算法业务的开发。
原文链接:https://www.jianshu.com/p/c7f226232733
查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:
www.leadai.org
请关注人工智能LeadAI公众号,查看更多专业文章
大家都在看
LSTM模型在问答系统中的应用
基于TensorFlow的神经网络解决用户流失概览问题
最全常见算法工程师面试题目整理(一)
最全常见算法工程师面试题目整理(二)
TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络
装饰器 | Python高级编程
今天不如来复习下Python基础
MLSQL解决了什么问题相关推荐
- javaEE面试重点
Hibernate工作原理及为什么要用? 原理: 1. 读取并解析配置文件 2. 读取并解析映射信息,创建SessionFactory 3. 打开Sesssion 4. 创建事务Transation ...
- 为什么去开发一个MLSQL
算法和工程之殇 算法和工程结合,有两个非常大的痛点: 第一个,算法的着眼点是,用最快速的方式清洗一些数据出来,然后接着建模训练,评估预测效果,之后再重复清洗数据,再试验.因为很多算法工程师都是Pyth ...
- 工作中的一些错误解决记录
1) 2018-10-19 CDH OOZIE UI页面打不开: 解决: 把下载好的ext-2.2.zip拷贝到Oozie主机的/var/lib/oozie目录下 运行命令unzi ...
- 14 - MLSQL on k8s(2) - Spark on k8s
Spark on k8s,可能都有听说,可是笔者从网上没有找到一个可以顺利运行的例子.笔者也是走了几个弯路才顺利跑通的.下面笔者将基于spark native方式部署,分别讲解如下三种模式: spar ...
- MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI
近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,Apache ...
- 继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错? springboot 两种方式稳定解决跨域问题
继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错???springboot 两种方式稳定解决跨域问题! 之前我写了一篇文章,来解决CORS报错 ...
- 解决gitte提交报错 error: GE007: Your push would publish a private email address.
错误情况: gitte提交报错,无法提交上去,报错如下: remote: Powered by GITEE.COM [GNK-6.0] remote: error: GE007: Your push ...
- Java | kotlin 手动注入bean,解决lateinit property loginService has not been initialized异常
kotlin.UninitializedPropertyAccessException: lateinit property loginService has not been initialized ...
- 苹果设备iphone,ipad,macbook网络连接慢,开机开什么卡什么,一步解决
苹果电脑网络连接慢,开机开什么卡什么??? 网络上的方法一种种,没有一个适用的? 如果你的macbook也是打开就没网,但有一些软件也能用,就是浏览器加载跑条儿,不妨试试! 系统偏好设置-网络-高级- ...
最新文章
- Codeforces 900D Unusual Sequences:记忆化搜索
- 你的sql查询为什么这么慢?
- @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
- Python数据可视化实战应用万字长文从入门到高端(建议收藏)
- AndroidStudio离线使用gradle
- Vue.js-Day04-AM【父子组件通信(父传子、子传父)、动态组件、组件的生命周期、动画】
- 《2017 云计算评测报告》:带你了解 AWS、阿里云、腾讯云等八家云计算服务提供商的综合用户体验情况...
- Qt之水平/垂直布局(QBoxLayout、QHBoxLayout、QVBoxLayout)
- [Noip模拟赛] Power
- qt 程序异常结束_【心电国际指南2009专家解读】浦介麟 冉玉琴老师:QT 间期的规范化测量及其意义...
- java 通配符泛型_java泛型常用通配符实例解析
- dsn服务器显示问题,DNS 服务器出现4004错误解决方法
- JxBrowser-JS调用和AJAX数据监听
- nominal和ordinal 数据处理中四种基本数据类型
- Winform UI界面设计例程——侧边框栏折叠
- 远程桌面连接工具在哪里下载?
- 跨域CrossOrigin
- 正则化、正则项、正则问题的快速理解
- 2022最后一天盘点
- ubuntu安装extundelete
热门文章
- linux cp后文件变大,使用 rsync 复制大文件的一些误解 | Linux 中国
- git新建空白文件没有生效
- Java报警110_Java入门基础SL110
- spring aop 必须的包 及里面用到的东西_学习Spring的思考框架
- jmeter远程启动命令_Jmeter命令行方式启动
- 目录树 删除 数据结构_互联网发布:最详细的《数据结构算法核心总结》,图文并茂超清晰...
- 计算机辅助设计的概念.doc,计算机辅助设计的基础知识.DOC
- python条件控制语句要注意什么_浅析Python 条件控制语句
- 【Beta阶段】第四次Scrum Meeting
- 【UOJ】【BZOJ】 [Zjoi2016]小星星