DolphinDB实现了一系列常用的机器学习算法,例如最小二乘回归、随机森林、K-平均等,使用户能够方便地完成回归、分类、聚类等任务。这篇教程会通过具体的例子,介绍用DolphinDB脚本语言进行机器学习的流程。本文的所有例子都基于DolphinDB 1.10.9。

1. 第一个例子:对小样本数据进行分类

我们用UCI Machine Learning Repository上的wine数据,用来完成第一个随机森林分类模型的训练。

1.1 加载数据

将数据下载到本地后,在DolphinDB中用loadText导入:

wineSchema = table(    `Label`Alcohol`MalicAcid`Ash`AlcalinityOfAsh`Magnesium`TotalPhenols`Flavanoids`NonflavanoidPhenols`Proanthocyanins`ColorIntensity`Hue`OD280_OD315`Proline as name,    `INT`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE`DOUBLE as type
)
wine = loadText("D:/dataset/wine.data", schema=wineSchema)

1.2 数据预处理

DolphinDB的randomForestClassifier函数要求类的标签的取值是[0, classNum)之间的整数。下载得到的wine数据的分类标签为1, 2, 3,需要更新为0, 1, 2:

update wine set Label = Label - 1

将数据按7:3分为训练集和测试集。本例编写了一个trainTestSplit函数以便划分。

def trainTestSplit(x, testRatio) {xSize = x.size()testSize = xSize * testRatior = (0..(xSize-1)).shuffle()return x[r > testSize], x[r <= testSize]
}wineTrain, wineTest = trainTestSplit(wine, 0.3)
wineTrain.size()    // 124
wineTest.size()     // 54

1.3 使用randomForestClassifier进行随机森林分类

对训练集调用randomForestClassifier函数进行随机森林分类。该函数有四个必选参数,分别是:

  • ds: 输入的数据源,本例中用sqlDS函数生成。
  • yColName: 数据源中因变量的列名。
  • xColNames: 数据源中自变量的列名。
  • numClasses: 类的个数。
model = randomForestClassifier(sqlDS(<select * from wineTrain>),yColName=`Label,xColNames=`Alcohol`MalicAcid`Ash`AlcalinityOfAsh`Magnesium`TotalPhenols`Flavanoids`NonflavanoidPhenols`Proanthocyanins`ColorIntensity`Hue`OD280_OD315`Proline,numClasses=3
)

用训练得到的模型,对测试集进行预测:

predicted = model.predict(wineTest)

观察预测正确率:

> sum(predicted == wineTest.Label) \ wineTest.size();0.925926

1.4 模型持久化

saveModel函数将训练得到的模型保存到磁盘上:

model = loadModel("D:/model/wineModel.bin")
predicted = model.predict(wineTest)

loadModel函数加载磁盘上的模型,并用于预测:

model = loadModel("D:/model/wineModel.bin")
predicted = model.predict(wineTest)

2.分布式机器学习

上面的例子只是一个在小数据上的玩具。与常见的机器学习库不同,DolphinDB是为分布式环境而设计的,许多内置的机器学习算法对分布式环境有良好的支持。

本章将介绍如何在DolphinDB分布式数据库上用逻辑回归算法完成分类模型的训练。

现有一个DolphinDB分布式数据库,按股票名分区,存储了各股票在2010年到2018年的每日ohlc数据。

我们将用以下九个变量作为预测的指标:开盘价、最高价、最低价、收盘价、当天开盘价与前一天收盘价的差、当天开盘价与前一天开盘价的差、10天的移动平均值、相关系数、相对强弱指标(relative strength index, RSI)。

我们将用第二天的收盘价是否大于当天的收盘价作为预测的目标。

2.1 数据预处理

在本例中,原始数据中的空值,可以通过ffill函数填充;对原始数据求10天移动平均值和RSI后,结果的前10行将会是空值,需要去除。我们将用transDS!函数对原始数据应用预处理步骤。本例中,求RSI用到了DolphinDB的ta模块,具体用法参见DolphinDBModules.

use tadef preprocess(t) {ohlc = select ffill(Open) as Open, ffill(High) as High, ffill(Low) as Low, ffill(Close) as Close from tupdate ohlc set OpenClose = Open - prev(Close), OpenOpen = Open - prev(Open), S_10 = mavg(Close, 10), RSI = ta::rsi(Close, 10), Target = iif(next(Close) > Close, 1, 0)update ohlc set Corr = mcorr(Close, S_10, 10)return ohlc[10:]
}

加载数据后,通过sqlDS生成数据源,并通过transDS!用预处理函数转化数据源:

ohlc = database("dfs://trades").loadTable("ohlc")
ds = sqlDS(<select * from ohlc>).transDS!(preprocess)

2.2 调用logisticRegression函数训练

函数logisticRegression有三个必选参数:

  • ds: 输入的数据源。
  • yColName: 数据源中因变量的列名。
  • xColNames: 数据源中自变量的列名。

上一节已经生成了输入的数据源,可以直接用作参数。

model = logisticRegression(ds, `Target, `Open`High`Low`Close`OpenClose`OpenOpen`S_10`RSI`Corr)

用训练的模型对一支股票的数据进行预测并计算分类准确率:

aapl = preprocess(select * from ohlc where Ticker = `AAPL)
predicted = model.predict(aapl)
score = sum(predicted == appl.Target) \ aapl.size()    // 0.756522

3. 使用PCA为数据降维

主成分分析(Principal Component Analysis, PCA)是一个机器学习中的使用技巧。如果数据的维度太高,学习算法的效率可能很低下,通过PCA,将高维数据映射到低维空间,同时尽可能最小化信息损失,可以解决维度灾难的问题。PCA的另一个应用是数据可视化。二维或三维的数据能便于用户理解。

以对wine数据进行分类为例,输入的数据集有13个因变量,对数据源调用pca函数,观察各主成分的方差权重。将normalize参数设为true,以对数据进行归一化处理。

xColNames = `Alcohol`MalicAcid`Ash`AlcalinityOfAsh`Magnesium`TotalPhenols`Flavanoids`NonflavanoidPhenols`Proanthocyanins`ColorIntensity`Hue`OD280_OD315`Proline
pcaRes = pca(sqlDS(<select * from wineTrain>),colNames=xColNames,normalize=true
)

返回值是一个字典,观察其中的explainedVarianceRatio,会发现压缩后的前三个维度的方差权重已经非常大,压缩为三个维度足够用于训练:

> pcaRes.explainedVarianceRatio;
[0.209316,0.201225,0.121788,0.088709,0.077805,0.075314,0.058028,0.045604,0.038463,0.031485,0.021256,0.018073,0.012934]

我们只保留前三个主成分:

components = pcaRes.components.transpose()[:3]

将主成分分析矩阵应用于输入的数据集,并调用randomForestClassifier进行训练。

def principalComponents(t, components, yColName, xColNames) {res = matrix(t[xColNames]).dot(components).table()res[yColName] = t[yColName]return res
}ds = sqlDS(<select * from wineTrain>)
ds.transDS!(principalComponents{, components, `Class, xColNames})model = randomForestClassifier(ds, yColName=`Class, xColNames=`col0`col1, numClasses=3)

对测试集进行预测时,也需要提取测试集的主成分:

model.predict(wineTest.principalComponents(components, `Class, xColNames))

4. 使用DolphinDB插件进行机器学习

除了内置的经典机器学习算法,DolphinDB还提供了一些插件。利用这些插件,我们可以方便地用DolphinDB地脚本语言调用第三方库进行机器学习。本节将以DolphinDB XGBoost插件为例,介绍使用插件进行机器学习的方法。

4.1 加载XGBoost插件

从DolphinDB Plugin的GitHub页面下载已经编译好的XGBoost插件到本地。然后在DolphinDB中运行loadPlugin(pathToXgboost),其中pathToXgboost是下载的PluginXgboost.txt的路径:

pathToXgboost = "C:/DolphinDB/plugin/xgboost/PluginXgboost.txt"
loadPlugin(pathToXgboost)

4.2 调用插件函数进行训练、预测

同样使用wine数据。XGBoost插件的训练函数xgboost::train的语法为xgboost::train(Y, X, [params], [numBoostRound=10], [xgbModel]),我们将训练数据wineTrain的Label列单独取出来作为输入的Y,将其他列保留作为输入的X:

Y = exec Label from wineTrain
X = select Alcohol, MalicAcid, Ash, AlcalinityOfAsh, Magnesium, TotalPhenols, Flavanoids, NonflavanoidPhenols, Proanthocyanins, ColorIntensity, Hue, OD280_OD315, Proline from wineTrain

训练前需要设置参数params字典。我们将训练一个多分类模型,故将params中的objective设为"multi:softmax",将分类的类别数num_class设为3。其他常见的参数有:

  • booster: 可以取"gbtree"或"gblinear"。gbtree采用基于树的模型进行提升计算,gblinear采用线性模型。
  • eta: 步长收缩值。每一步提升,会按eta收缩特征的权重,以防止过拟合。取值范围是[0,1],默认值是0.3。
  • gamma: 最小的损失减少值,仅当分裂树节点产生的损失减小大于gamma时才会分裂。取值范围是[0,∞],默认值是0。
  • max_depth: 树的最大深度。取值范围是[0,∞],默认值是6。
  • subsample: 采样的比例。减少这个参数的值可以避免过拟合。取值范围是(0,1],默认值是1。
  • lambda: L2正则的惩罚系数。默认值是0。
  • alpha: L1正则的惩罚系数。默认值是0。
  • seed: 随机数种子。默认值是0。

其他参数参见XGBoost的官方文档。

在本例中,我们将设置objective, num_class, max_depth, eta, subsample这些参数:

params = {objective: "multi:softmax",num_class: 3,max_depth: 5,eta: 0.1,subsample: 0.9
}

训练模型,预测并计算分类准确率:

model = xgboost::train(Y, X, params)testX = select Alcohol, MalicAcid, Ash, AlcalinityOfAsh, Magnesium, TotalPhenols, Flavanoids, NonflavanoidPhenols, Proanthocyanins, ColorIntensity, Hue, OD280_OD315, Proline from wineTest
predicted = xgboost::predict(model, testX)sum(predicted == wineTest.Label) \ wineTest.size()    // 0.962963

同样,可以将模型持久化或加载已有模型:

xgboost::saveModel(model, "xgboost001.mdl")model = xgboost::loadModel("xgboost001.mdl")

通过指定xgboost::train的xgbModel参数,对已有的模型进行增量训练:

model = xgboost::train(Y, X, params, , model)

附录:DolphinDB机器学习函数

A. 机器学习训练函数

B. 机器学习工具函数

C. 机器学习插件

干货丨如何使用DolphinDB进行机器学习相关推荐

  1. 干货丨深度学习和经典机器学习的全方位对比

    本文将对比深度学习和经典机器学习,分别介绍这两种技术的优缺点以及它们在哪些问题 如何得到最佳使用. 深度学习已成为大多数AI问题的首选技术,使得经典机器学习相形见绌.但是,尽管深度学习有很好的性能,经 ...

  2. 干货丨大牛带你走向机器学习“正道”:小朋友才迷信算法,大人们更重视工程实践

    王刚,前乐视大数据总监,现任某电商平台大数据总监.10 年大数据领域工作经验,具有 Hadoop 和 Spark 生态相关技术的实际应用经验.目前专注于机器学习,搜索和推荐系统的设计和开发. 以下为王 ...

  3. 干货丨时序数据库DolphinDB即时编译(JIT)详解

    DolphinDB是高性能分布式时序数据库,内置了丰富的计算功能和强大多范式编程语言.为了能够提高DolphinDB脚本的执行效率,从1.01版本开始,DolphinDB支持即时编译(JIT). 1 ...

  4. PHP实现量化交易,量化交易干货丨如何使用DolphinDB计算K线

    DolphinDB提供了功能强大的内存计算引擎,内置时间序列函数,分布式计算以及流数据处理引擎,在众多场景下均可高效的计算K线.本教程将介绍DolphinDB如何通过批量处理和流式处理计算K线.历史数 ...

  5. 干货丨如何使用DolphinDB计算K线

    DolphinDB提供了功能强大的内存计算引擎,内置时间序列函数,分布式计算以及流数据处理引擎,在众多场景下均可高效的计算K线.本教程将介绍DolphinDB如何通过批量处理和流式处理计算K线. 历史 ...

  6. 量化干货丨如何使用DolphinDB计算K线

    DolphinDB提供了功能强大的内存计算引擎,内置时间序列函数,分布式计算以及流数据处理引擎,在众多场景下均可高效的计算K线.本教程将介绍DolphinDB如何通过批量处理和流式处理计算K线. 历史 ...

  7. 量化金融干货丨如何使用DolphinDB快速计算K线

    DolphinDB提供了功能强大的内存计算引擎,内置时间序列函数,分布式计算以及流数据处理引擎,在众多场景下均可高效的计算K线.本教程将介绍DolphinDB如何通过批量处理和流式处理计算K线. 历史 ...

  8. 干货丨时序数据库DolphinDB文本数据加载教程

    DolphinDB提供以下4个函数,将文本数据导入内存或数据库: loadText: 将文本文件导入为内存表. ploadText: 将文本文件并行导入为分区内存表.与loadText函数相比,速度更 ...

  9. 干货丨时序数据库DolphinDB客户端软件教程

    DolphinDB提供了从基于Java的GUI, VS Code Extension, Web界面,到命令行等各种灵活友好的交互界面,具体包括以下6种客户端交互方式. 1. DolphinDB GUI ...

最新文章

  1. jdbc就是这么简单
  2. 拼车日滴滴派单的那些事
  3. 前端学习(1319):node.js异步编程
  4. Salesforce 为什么要收购 Slack?
  5. SQL SERVER 2012 只能识别20个CPU的问题
  6. 对于应聘人工智能相关算法岗来说,顶会论文和算法比赛哪个更重要?
  7. TSPL学习笔记(2):过程和变量绑定
  8. DevOps使用教程 华为云(11)git分支怎么用 分支合并 评审
  9. 云起智慧中心连接华为_云起荣获CIBIS十大全屋智能品牌奖:将与合作伙伴共同扩展AIoT生态平台...
  10. python3.7源码剖析——python对象
  11. JavaScript事件代理(事件委托)
  12. 数据缺失机制以及缺失值处理方式
  13. HDOJ 2492 Ping pong 线段树+离散化
  14. 不可不知的量化因子模型选股策略
  15. 【课件制作软件】Focusky教程 | 设置文字阴影效果
  16. 佳片有约|《第六感生死缘》:生如夏花,死若秋叶的爱恋
  17. 第十二届noc网络机器人赛项成绩_我省在第十二届中小学NOC活动决赛中获佳绩
  18. 利用python进行身份证号码大全_2分钟就能学会的3个函数,快速从身份证中提取出生日期、年龄...
  19. 外贸企业邮箱如何撤回已发送的邮件,发错的邮件怎么撤回?
  20. ASP.NET在线学习系统

热门文章

  1. oracle如何高效分页,oracle学习之高效分页存储过程实例
  2. ​中南建设2022年半年报“韧”字当头,经营性现金流持续为正​
  3. 马斯克OpenAI实验室的17岁高中生
  4. g++在编译时就确定运行时动态库路径
  5. 职称计算机word模块,职称计算机考试模块综合(word、excel、powerpoint、xp).doc
  6. 哈夫曼编/译码器的设计与实现(结合文件)
  7. MACD黄金交叉和死亡交叉
  8. 【渝粤教育】10548_金融学k1_21秋考试
  9. Ceres Jet型
  10. 高压直流电源面对干扰问题的解决方案分析