作者 | Abhinav Sagar

翻译 | 申利彬

校对 | 吴金笛

来源 | 数据派THU(ID:DatapiTHU)

本文旨在让您把训练好的机器学习模型通过Flask API 投入到生产环境 。
当数据科学或者机器学习工程师使用Scikit-learn、Tensorflow、Keras 、PyTorch等框架部署机器学习模型时,最终的目的都是使其投入生产。通常,我们在做机器学习项目的过程中,将注意力集中在数据分析,特征工程,调整参数等方面。但是,我们往往会忘记主要目标,即从模型预测结果中获得实际的价值。
部署机器学习模型或者将模型投入生产,意味着将模型提供给最终的用户或系统使用。
然而机器学习模型部署具有一定的复杂性,本文可以让你把训练好的机器学习模型使用Flask API 投入生产环境。
我将使用线性回归,通过利率和前两个月的销售额来预测第三个月的销售额。
线性回归是什么?
线性回归模型的目标是找出一个或多个特征(自变量)和一个连续目标变量(因变量)之间的关系。如果只有一个特征,则称为单变量线性回归;如果有多个特征,则称为多元线性回归。
线性回归的假设
线性回归模型可以用下面的等式表示:
线性回归图解
为什么使用Flask?
  • 容易上手使用
  • 内置开发工具和调试工具
  • 集成单元测试功能
  • 平稳的请求调度
  • 详尽的文档
项目结构
这个项目分为四个部分:
1. model.py -- 包含机器学习模型的代码,用于根据前两个月的销售额预测第三个月的销售额。
2. app.py – 包含用于从图形用户界面(GUI)或者API调用获得详细销售数据的Flask API,Flask API根据我们的模型计算预测值并返回。
3. request.py -- 使用requests模块调用app.py中定义的API并显示返回值。
4. HTML/CSS – 包含HTML模板和CSS风格代码,允许用户输入销售细节并显示第三个月的预测值。
部署机器学习模型的Pipeline
环境和工具
1. Scikit-learn
2. Pandas
3. Numpy
4. Flask
代码在哪里呢?
从代码开始,完整的项目可以在github上找到(https://github.com/abhinavsagar/Machine-Learning-Deployment-Tutorials)。
我们使用HTML构建前端,让用户输入数据。这里有三个区域需要用户去填写—利率,第一个月的销售额以及第二个月的销售额。

<!DOCTYPE html>
<html ><head> 
 <meta charset="UTF-8"> 
  <title>Deployment Tutorial 1</title> 
   <link href='https://fonts.googleapis.com/css?family=Pacifico' rel='stylesheet' type='text/css'>
   <link href='https://fonts.googleapis.com/css?family=Arimo' rel='stylesheet' type='text/css'>
   <link href='https://fonts.googleapis.com/css?family=Hind:300' rel='stylesheet' type='text/css'>
   <link href='https://fonts.googleapis.com/css?family=Open+Sans+Condensed:300' rel='stylesheet' type='text/css'>
   <link rel="stylesheet" href="{{ url_for('static', filename='css/style.css') }}"></head><body style="background: #000;">
    <div><h1>Sales Forecasting
    </h1>    
     <!-- Main Input For Receiving Query to our ML -->   
      <form action="{{ url_for('predict')}}"method="post">
          <input type="text" name="rate" placeholder="rate" required="required" /> 
                 <input type="text" name="sales in first month" placeholder="sales in first month" required="required" />
                 <input type="text" name="sales in second month" placeholder="sales in second month" required="required" />    
                     <button type="submit" class="btn btn-primary btn-block btn-large">Predict sales in third month</button> 
                        </form> 
                          <br> 
                            <br>   {{ prediction_text }} 
                            </div>
                            </body>
                            </html>

接下来,使用CSS对输入按钮、登录按钮和背景进行了一些样式设置。

@import url(https://fonts.googleapis.com/css?family=Open+Sans);
html { width: 100%; height:100%; overflow:hidden; 
}body {width: 100%;height:100%;font-family: 'Helvetica';background: #000;
color: #fff;
font-size: 24px;
text-align:center;
letter-spacing:1.4px;}.login {position: absolute;
top: 40%;
left: 50%;
margin: -150px 0 0 -150px;
width:400px;
height:400px;}

login h1 { color: #fff; 
text-shadow: 0 0 10px rgba(0,0,0,0.3);
 letter-spacing:1px;
  text-align:center; 
  }input {width: 100%;
  margin-bottom: 10px;
  background: rgba(0,0,0,0.3);
  border: none;
  outline: none;
  padding: 10px;
  font-size: 13px;
  color: #fff;
  text-shadow: 1px 1px 1px rgba(0,0,0,0.3);
  border: 1px solid rgba(0,0,0,0.3);
  border-radius: 4px;
  box-shadow: inset 0 -5px 45px rgba(100,100,100,0.2), 0 1px 1px rgba(255,255,255,0.2);
  -webkit-transition: box-shadow .5s ease;
  -moz-transition: box-shadow .5s ease;
  -o-transition: box-shadow .5s ease;
  -ms-transition: box-shadow .5s ease;
  transition: box-shadow .5s ease;
  }

我为这个项目创建了一个定制的销售数据集,它有四列——利率、第一个月的销售额、第二个月的销售额和第三个月的销售额。
我们现在构建一个机器学习模型来预测第三个月的销售额。首先使用Pandas解决缺失值问题,当一项或多项指标没有信息时,就会有缺失值发生。使用0填充利率这一列的缺失值,平均值填充第一个月销售额中的缺失值,采用线性回归的机器学习算法。
序列化和反序列化
简而言之,序列化是一种在磁盘上写入python对象的方法,该对象可以传输到任何地方,然后通过python脚本反序列化(读)回去。
序列化 反序列化
使用Pickling将是python对象形式的模型转为字符流形式,其思想是这个字符流中包含了在另一个python脚本中重建这个对象所需的所有信息。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import pickle
dataset = pd.read_csv('sales.csv')
dataset['rate'].fillna(0, inplace=True)
dataset['sales_in_first_month'].fillna(dataset['sales_in_first_month'].mean(), inplace=True)
X = dataset.iloc[:, :3]
def convert_to_int(word):
    word_dict = {'one':1, 'two':2, 'three':3, 'four':4, 'five':5, 'six':6, 'seven':7, 'eight':8,
                'nine':9, 'ten':10, 'eleven':11, 'twelve':12, 'zero':0, 0: 0}
    return word_dict[word]
X['rate'] = X['rate'].apply(lambda x : convert_to_int(x))
y = dataset.iloc[:, -1]
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()

regressor.fit(X, y)
pickle.dump(regressor, open('model.pkl','wb'))
model = pickle.load(open('model.pkl','rb'))
print(model.predict([[4, 300, 500]]))

下一部分是构建一个API,反序列化这个模型为python对象格式,并通过图形用户界面(GUI)获取详细销售数据,根据模型计算预测值。我使用index.html设置主页,并在使用POST请求方式提交表单数据时,获取预测的销售值。
可以通过另一个POST请求将结果发送给results并展示出来。它接收JSON格式的输入,并使用训练好的模型预测出可以被API端点接受的JSON格式的预测值。

import numpy as np
from flask import Flask, request, jsonify, render_template
import pickle
app = Flask(__name__)model = pickle.load(open('model.pkl', 'rb'))
@app.route('/')
def home():  
  return render_template('index.html')
  @app.route('/predict',methods=['POST'])
  def predict(): 
     int_features = [int(x) for x in request.form.values()]
         final_features = [np.array(int_features)]  
           prediction = model.predict(final_features)
               output = round(prediction[0], 2) 
                  return render_template('index.html', prediction_text='Sales should
              be $ {}'.format(output))
@app.route('/results',methods=['POST'])
def results():
    data = request.get_json(force=True)
    prediction = model.predict([np.array(list(data.values()))])
    output = prediction[0]
    return jsonify(output)
if __name__ == "__main__":
app.run(debug=True)

最后使用requests模块调用在app.py中定义的APIs,它的结果是第三个月销售额的预测值。

import requests
url = 'http://localhost:5000/results'
r = requests.post(url,json={'rate':5, 
'sales_in_first_month':200, 'sales_in_second_month':400})
print(r.json()) Results

使用下面的命令运行Web应用程序。
python app.py
在web浏览器中打开http://127.0.1:5000/,将显示如下所示的GUI.
原文标题:
How to Easily Deploy Machine Learning Models Using Flask
原文链接:
https://www.kdnuggets.com/2019/10/easily-deploy-machine-learning-models-using-flask.html
编辑:王菁
校对:王欣

扫码查看原文

▼▼▼


(*本文为AI科技大本营转载文章,转载联系原作者

精彩推荐

2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。6.6 折票限时特惠(立减1400元),学生票仅 599 元!

推荐阅读

手把手教你使用Flask轻松部署机器学习模型(附代码链接) | CSDN博文精选相关推荐

  1. 独家 | 手把手教你如何使用Flask轻松部署机器学习模型(附代码链接)

    作者:Abhinav Sagar 翻译:申利彬 校对:吴金笛 本文约2700字,建议阅读7分钟. 本文可以让你把训练好的机器学习模型使用Flask API 投入生产环境. 本文旨在让您把训练好的机器学 ...

  2. python代码示例图形-纯干货:手把手教你用Python做数据可视化(附代码)

    原标题:纯干货:手把手教你用Python做数据可视化(附代码) 导读:制作提供信息的可视化(有时称为绘图)是数据分析中的最重要任务之一.可视化可能是探索过程的一部分,例如,帮助识别异常值或所需的数据转 ...

  3. python画图代码大全-纯干货:手把手教你用Python做数据可视化(附代码)

    原标题:纯干货:手把手教你用Python做数据可视化(附代码) 导读:制作提供信息的可视化(有时称为绘图)是数据分析中的最重要任务之一.可视化可能是探索过程的一部分,例如,帮助识别异常值或所需的数据转 ...

  4. 独家 | 手把手教你在试验中修正机器学习模型(附学习资源)

    作者:Seth DeLand 翻译:王威力 校对:万文菁 本文约1800字,建议阅读8分钟. 本文是一个循序渐进的指南,包括如何预处理数据和从中生成特征.并且还包含其他示例资源的链接,以帮助您探索有关 ...

  5. 独家 | 手把手教你组织数据科学项目!(附代码)

    作者:kdnuggets 翻译:和中华 校对:丁楠雅 本文约4200字,建议阅读10分钟. 本文介绍了一个工具可以帮助迅速构建一个标准但灵活的数据科学项目结构,便于实施和分享数据科学工作. 由Driv ...

  6. 傻瓜教程:手把手教你解决多个应用实例(附代码、手绘图)

    来源:大数据文摘 本文约20000字,建议阅读18分钟. 长文预警!本文从七桥问题引入,将会讲到图论在Airbnb房屋查询.推特推送更新时间.Netflix和亚马逊影片/商品个性化推荐.Uber寻找最 ...

  7. 手把手教你安装深度学习软件环境(附代码)

    来源:机器之心 本文长度为2800字,建议阅读5分钟. 本文向你解释如何在一台新装的 Ubuntu 机器上安装 Python 和 Nvidia 硬件驱动.各类库和软件包. 为了进行强化学习研究,我最近 ...

  8. iir数字滤波器_手把手教系列之一阶数字滤波器设计实现(附代码)

    [导读] 前面分享了 IIR/FIR/mean/梳状数字滤波器的具体设计实现,这几种使用起来或许觉得计算量大,相对复杂.实际工程应用中通常有必要过滤来自传感器或音频流的数据,以抑制不必要的噪声.有的应 ...

  9. 手把手教你使用Dygraphs可视化时间序列数据(附代码、链接)

    作者:Margo Schaedel 翻译:张一豪 校对:丁楠雅 本文约1200字,建议阅读5分钟. 本文将介绍如何使用JavaScript的图形库Dygraphs来动态地可视化存储在InfluxDB( ...

最新文章

  1. asp.net mvc Post上传文件大小限制 (转载)
  2. oracle查询转insert语句,oracle中将查出来的数据转化为insert into语句
  3. Android ListView滑动后背景变黑
  4. [转载] Java笔试题集锦
  5. c语言实现语音检测vad_TWS+AI?国芯发布超低功耗语音芯片,可能是目前最理想方案...
  6. range作用于对象global失败_彻底弄懂JavaScript作用域问题
  7. jquery-jquery对向与dom标签对向
  8. html 左边固定右边自动,七种实现左侧固定,右侧自适应两栏布局的方法
  9. C语言家谱管理程序,C语言实现家谱管理
  10. 又延伸到socket去了。
  11. java 执行class文件
  12. 华为平板解锁工具_华为平板M6 10.8英寸首发评测 办公+影音+智能全面开花
  13. 抖音快手短视频 影视后期制作工具网址大全
  14. 热度php代码,爬取知乎热度搜索标题并数据分析及可视化(示例代码)
  15. Ubuntu18.04 编译Android 10源码 并烧录源码到pixel3的避坑指南
  16. 平均获客成本_互联网金融获客成本
  17. 我的Java学习之路
  18. mysql数据字段属性
  19. 计算机组成与系统结构实验-基于微程序控制的CPU设计
  20. O2OA框架使用笔记

热门文章

  1. Solr 4.x定时、实时增量索引 - 修改、删除和新增索引
  2. VMware Tools手动下载
  3. 现实迷途 第七章 特殊客户
  4. javascript 操作Word和Excel的实现代码
  5. 为什么要读源代码,如何阅读源代码
  6. 特斯拉FSD车端感知解析
  7. 1 图片channels_深度学习中各种图像库的图片读取方式
  8. Python Logging模块实现运行的程序写入 日志
  9. MongoDB系列:二、MongoDB常用操作练习
  10. spark调优(一)-开发调优,数据倾斜,shuffle调优