七月 上海 | 高性能计算之GPU CUDA培训

7月27-29日三天密集式学习  快速带你入门阅读全文>

正文共1259个字,预计阅读时间8分钟。

先看看做算法有哪些痛点(我们假设大部分算法的代码都是基于Python的):

1、项目难以重现,可阅读性和环境要求导致能把另外一个同事写的python项目运行起来不得不靠运气

2、和大数据平台衔接并不容易,需要让研发重新做工程实现,导致落地周期变长。

3、训练时数据预处理/特征化无法在预测时复用

4、集成到流式,批处理和提供API服务都不是一件容易的事情

5、代码/算法复用级别有限,依赖于算法自身的经验以及自身的工具箱,团队难以共享。

6、其他团队很难接入算法的工作

MLSQL如何解决这些问题呢?

统一交互语言

MLSQL提供了一套SQL的超集的DSL语法MLSQL,数据处理,模型训练,模型预测部署等都是以MLSQL语言交互,该语言简单易懂,无论算法,分析师,甚至运营都能看懂,极大的减少了团队的沟通成本,同时也使得更多的人可以做算法方面的工作。

数据预处理/算法模块化

所有较为复杂的数据预处理和算法都是模块化的,通过函数以及纯SQL来进行衔接。比如:

 1-- load data 2load parquet.`${rawDataPath}` as orginal_text_corpus; 3-- select only columns we care 4select feature,label from orginal_text_corpus as orginal_text_corpus; 5-- feature enginere moduel 6train zhuml_orginal_text_corpus  as TfIdfInPlace.`${tfidfFeaturePath}`  7where inputCol="content"  8and `dic.paths`="/data/dict_word.txt"  9and stopWordPath="/data/stop_words"10and nGrams="2";11-- load data12load parquet.`${tfidfFeaturePath}/data` as tfidfdata;13--  algorithm module14train zhuml_corpus_featurize_training as PythonAlg.`${modelPath}` 15where pythonScriptPath="${sklearnTrainPath}"16-- kafka params for log17and `kafkaParam.bootstrap.servers`="${kafkaDomain}"18and `kafkaParam.topic`="test"19and `kafkaParam.group_id`="g_test-2"20and `kafkaParam.userName`="pi-algo"21-- distribute data22and  enableDataLocal="true"23and  dataLocalFormat="json"24-- sklearn params25and `fitParam.0.moduleName`="sklearn.svm"26and `fitParam.0.className`="SVC"27and `fitParam.0.featureCol`="features"28and `fitParam.0.labelCol`="label"29and `fitParam.0.class_weight`="balanced"30and `fitParam.0.verbose`="true"3132and `fitParam.1.moduleName`="sklearn.naive_bayes"33and `fitParam.1.className`="GaussianNB"34and `fitParam.1.featureCol`="features"35and `fitParam.1.labelCol`="label"36and `fitParam.1.class_weight`="balanced"37and `fitParam.1.labelSize`="2"3839-- python env40and `systemParam.pythonPath`="python"41and `systemParam.pythonParam`="-u"42and `systemParam.pythonVer`="2.7";

这段小脚本脚本完成了数据加载,特征工程,最后的训练。所有以train开头的,都是模块,以select 开头的都是标准sql,以load开头的则是各种数据源的加载。

在MLSQL中,任何一个模块都有两个产出:模型和函数。训练时该模块会产生一个对应的模型,预测时该模型会提供一个函数,从而实现

  • 对训练阶段的数据处理逻辑,在预测时能进行复用。

  • 算法训练的模型可以直接部署成一个预测函数。

标准遵循

所有数据处理模块,算法模块,都有标准的暴露参数的方式,也就是前面例子类似下面的句子:

1and `fitParam.0.labelCol`="label"2and `fitParam.0.class_weight`="balanced"3and `fitParam.0.verbose`="true"

比如该算法暴露了class_weight,labelCol,verbose等参数。所有人开发的算法模块和数据处理模块都可以很好的进行复用。

分布式和单机多种部署形态

MLSQL是基于Spark改造而成,这就直接继承了Spark的多个优点:

  • 你可以在MLSQL里获取基本上大部分存储的支持,比如ES,MySQL,Parquet,ORC,JSON,CSV等等

  • 你可以部署在多种环境里,比如Yarn,Mesos,Local等模式

数据处理模块/算法模型易于部署

同行启动一个local模式的MLSQL Server,然后注册我们训练的时候使用到的数据处理模块和算法模块,每个模块都会产生一个函数,接着就能通过http接口传递一个函数嵌套的方式完成一个pipeline的使用了。对于函数我们确保其响应速度,一般都是在毫秒级。
注册就是一个简单的register语句:

1-- transform model into udf2register PythonAlg.`${modelPath}` as topic_spam_predict options 3pythonScriptPath="${sklearnPredictPath}"4;

支持所有提供了Python语言接口的算法框架的集成

只要实现MLSQL的标准规范,你就能够轻而易举的将各种框架集成到MLSQL中。目前已经支持SKlearn,同时有Keras图片处理等相关例子。算法可以专注于算法模块的研发,研发可以专注于数据处理模块的开发,所有的人都可以通过MLSQL复用这些模块,完成算法业务的开发。

原文链接:https://www.jianshu.com/p/c7f226232733

查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org

请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

MLSQL解决了什么问题相关推荐

  1. javaEE面试重点

    Hibernate工作原理及为什么要用? 原理: 1. 读取并解析配置文件 2. 读取并解析映射信息,创建SessionFactory 3. 打开Sesssion 4. 创建事务Transation ...

  2. 为什么去开发一个MLSQL

    算法和工程之殇 算法和工程结合,有两个非常大的痛点: 第一个,算法的着眼点是,用最快速的方式清洗一些数据出来,然后接着建模训练,评估预测效果,之后再重复清洗数据,再试验.因为很多算法工程师都是Pyth ...

  3. 工作中的一些错误解决记录

    1) 2018-10-19 CDH OOZIE UI页面打不开:    解决:     把下载好的ext-2.2.zip拷贝到Oozie主机的/var/lib/oozie目录下    运行命令unzi ...

  4. 14 - MLSQL on k8s(2) - Spark on k8s

    Spark on k8s,可能都有听说,可是笔者从网上没有找到一个可以顺利运行的例子.笔者也是走了几个弯路才顺利跑通的.下面笔者将基于spark native方式部署,分别讲解如下三种模式: spar ...

  5. MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI

    近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,Apache ...

  6. 继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错? springboot 两种方式稳定解决跨域问题

    继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错???springboot 两种方式稳定解决跨域问题! 之前我写了一篇文章,来解决CORS报错 ...

  7. 解决gitte提交报错 error: GE007: Your push would publish a private email address.

    错误情况: gitte提交报错,无法提交上去,报错如下: remote: Powered by GITEE.COM [GNK-6.0] remote: error: GE007: Your push ...

  8. Java | kotlin 手动注入bean,解决lateinit property loginService has not been initialized异常

    kotlin.UninitializedPropertyAccessException: lateinit property loginService has not been initialized ...

  9. 苹果设备iphone,ipad,macbook网络连接慢,开机开什么卡什么,一步解决

    苹果电脑网络连接慢,开机开什么卡什么??? 网络上的方法一种种,没有一个适用的? 如果你的macbook也是打开就没网,但有一些软件也能用,就是浏览器加载跑条儿,不妨试试! 系统偏好设置-网络-高级- ...

最新文章

  1. Codeforces 900D Unusual Sequences:记忆化搜索
  2. 你的sql查询为什么这么慢?
  3. @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
  4. Python数据可视化实战应用万字长文从入门到高端(建议收藏)
  5. AndroidStudio离线使用gradle
  6. Vue.js-Day04-AM【父子组件通信(父传子、子传父)、动态组件、组件的生命周期、动画】
  7. 《2017 云计算评测报告》:带你了解 AWS、阿里云、腾讯云等八家云计算服务提供商的综合用户体验情况...
  8. Qt之水平/垂直布局(QBoxLayout、QHBoxLayout、QVBoxLayout)
  9. [Noip模拟赛] Power
  10. qt 程序异常结束_【心电国际指南2009专家解读】浦介麟 冉玉琴老师:QT 间期的规范化测量及其意义...
  11. java 通配符泛型_java泛型常用通配符实例解析
  12. dsn服务器显示问题,DNS 服务器出现4004错误解决方法
  13. JxBrowser-JS调用和AJAX数据监听
  14. nominal和ordinal 数据处理中四种基本数据类型
  15. Winform UI界面设计例程——侧边框栏折叠
  16. 远程桌面连接工具在哪里下载?
  17. 跨域CrossOrigin
  18. 正则化、正则项、正则问题的快速理解
  19. 2022最后一天盘点
  20. ubuntu安装extundelete

热门文章

  1. linux cp后文件变大,使用 rsync 复制大文件的一些误解 | Linux 中国
  2. git新建空白文件没有生效
  3. Java报警110_Java入门基础SL110
  4. spring aop 必须的包 及里面用到的东西_学习Spring的思考框架
  5. jmeter远程启动命令_Jmeter命令行方式启动
  6. 目录树 删除 数据结构_互联网发布:最详细的《数据结构算法核心总结》,图文并茂超清晰...
  7. 计算机辅助设计的概念.doc,计算机辅助设计的基础知识.DOC
  8. python条件控制语句要注意什么_浅析Python 条件控制语句
  9. 【Beta阶段】第四次Scrum Meeting
  10. 【UOJ】【BZOJ】 [Zjoi2016]小星星