点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”

总第 126 篇文章,本文大约 2500 字,阅读大约需要 10 分钟

原文:https://medium.com/modern-nlp/10-great-ml-practices-for-python-developers-b089eefc18fc

作者:Pratik Bhavsar

导语

有时候作为一名数据科学家,我们可能会忘记自己的主要职责。我们首先是开发者,接着是研究者,最后还可能是数学家。因此,我们最重要的责任就是快速开发出一个没有错误的解决方案。

只因为我们能创建模型,并不意味着我们就是神,这不会带给我们可以写出糟糕的代码的自由。

从我开始进入这个领域,我曾经犯下很多错误,并考虑分享一些我所知道的对于机器学习工程开发中最常用的技能。在我看来,这些也是工业界目前最缺乏的一些技能。

如果必须在一个优秀的数据科学家和一个优秀的机器学习工程师中选择招聘一个,我会选择后者。

下面就开始介绍 10 个实用的机器学习建议吧。


1. 学会写抽象类

当你开始写抽象类的时候,你就知道它可以让你的代码库变得很清晰明了,它们会强制采用一样的方法和方法名字。如果同个项目有多个人参与,并且每个人都用不同方法,那会产生不必要的混乱情况。

下面是一个代码例子:

import os
from abc import ABCMeta, abstractmethodclass DataProcessor(metaclass=ABCMeta):"""Base processor to be used for all preparation."""def __init__(self, input_directory, output_directory):self.input_directory = input_directoryself.output_directory = output_directory@abstractmethoddef read(self):"""Read raw data."""@abstractmethoddef process(self):"""Processes raw data. This step should create the raw dataframe with all the required features. Shouldn't implement statistical or text cleaning."""@abstractmethoddef save(self):"""Saves processed data."""class Trainer(metaclass=ABCMeta):"""Base trainer to be used for all models."""def __init__(self, directory):self.directory = directoryself.model_directory = os.path.join(directory, 'models')@abstractmethoddef preprocess(self):"""This takes the preprocessed data and returns clean data. This is more about statistical or text cleaning."""@abstractmethoddef set_model(self):"""Define model here."""@abstractmethoddef fit_model(self):"""This takes the vectorised data and returns a trained model."""@abstractmethoddef generate_metrics(self):"""Generates metric with trained model and test data."""@abstractmethoddef save_model(self, model_name):"""This method saves the model in our required format."""class Predict(metaclass=ABCMeta):"""Base predictor to be used for all models."""def __init__(self, directory):self.directory = directoryself.model_directory = os.path.join(directory, 'models')@abstractmethoddef load_model(self):"""Load model here."""@abstractmethoddef preprocess(self):"""This takes the raw data and returns clean data for prediction."""@abstractmethoddef predict(self):"""This is used for prediction."""class BaseDB(metaclass=ABCMeta):""" Base database class to be used for all DB connectors."""@abstractmethoddef get_connection(self):"""This creates a new DB connection."""@abstractmethoddef close_connection(self):"""This closes the DB connection."""

2. 固定好随机种子

实验的可复现是非常重要的一件事情,而随机种子可能会造成实验结果无法复现。因此必须固定好随机种子,否则会导致不同的训练集和测试集,以及神经网络的不同初始化权重,这些都会导致不一样的实验结果。

def set_seed(args):random.seed(args.seed)np.random.seed(args.seed)torch.manual_seed(args.seed)if args.n_gpu > 0:torch.cuda.manual_seed_all(args.seed)

3. 先展示少量数据

如果你的数据量非常大,然后你接下来要做的工作是类似于清洗数据或者建模,那么可以每次采用少量的数据来避免一次加载大量的数据。当然这个做法的前提是你只是希望测试代码,而不是实际开始实现相应的工作。

这个做法非常实用,特别是你本地电脑的配置不足以加载全部数据集的时候,但你又想在本地电脑采用 Jupyter/ VS code/ Atom 做实验。

代码例子如下:

df_train = pd.read_csv(‘train.csv’, nrows=1000)

4. 预估可能的错误(一个成熟开发者的标志)

记得每次都要检查数据是否存在空数据(NA),因为这将带来代码出错。当然,即便当前数据中不存在,这并不意味着在后续的训练步骤中不会出现这种情况,所以需要保持这种检查。

比如采用下述的代码:

print(len(df))
df.isna().sum()
df.dropna()
print(len(df))

5. 展示处理进度

当在处理大量的数据的时候,如果能够知道总共需要的时间以及当前的处理进度是非常有帮助的。

这里有几种方法:

第一种方法:采用 tqdm 库,代码例子:

from tqdm import tqdm
import timetqdm.pandas()df['col'] = df['col'].progress_apply(lambda x: x**2)text = ""
for char in tqdm(["a", "b", "c", "d"]):time.sleep(0.25)text = text + char

第二种方法--fastprogress

from fastprogress.fastprogress import master_bar, progress_bar
from time import sleep
mb = master_bar(range(10))
for i in mb:for j in progress_bar(range(100), parent=mb):sleep(0.01)mb.child.comment = f'second bar stat'mb.first_bar.comment = f'first bar stat'mb.write(f'Finished loop {i}.')

效果如下图所示:

6.  Pandas 可能会很慢

如果你采用 pandas 库,那么你会发现有的时候它的速度会有多慢,特别是采用 groupby 函数的时候。不需要想尽办法来寻找更好的加速方法,只需要修改一行代码即可,如下所示,采用 modin 即可解决这个问题:

import modin.pandas as pd

7. 计算函数运行的时间

不是所有的函数运行时间都是一样的。

即便你的代码都跑通了,但也不表示你写出一手好代码。有些软性错误(soft-bugs)可能会导致你的代码运行算的变慢,因此很有必要找到这些问题。可以采用下述装饰器来打印函数的运行时间。

import time
from functools import wrapsdef timing(f):"""Decorator for timing functionsUsage:@timingdef function(a):pass"""@wraps(f)def wrapper(*args, **kwargs):start = time.time()result = f(*args, **kwargs)end = time.time()print('function:%r took: %2.4f sec' % (f.__name__,  end - start))return resultreturn wrapper

使用的例子如下所示:

from time import sleep
@timing
def count_nums():sleep(1)

结果如下所示:

8. 不要在云服务器方面花太多钱

没有人会喜欢一个浪费云资源的工程师

有些实验是需要跑上数十个小时的,这些实验很难进行跟踪并在实验完成的时候关闭云服务器的实例。我曾经犯过这样的错误,同时也看到其他人也曾经因为这个忘记关闭好几天。

这种情况通常发现在周五的时候,然后让其一直运行到周一。

为了避免发生这种情况,可以在代码的最后加入下列代码。

不过,注意要主要代码放在 try catch中进行捕获异常,以防止发生错误。这种情况也是很可能发生的。

import osdef run_command(cmd):return os.system(cmd)def shutdown(seconds=0, os='linux'):"""Shutdown system after seconds given. Useful for shutting EC2 to save costs."""if os == 'linux':run_command('sudo shutdown -h -t sec %s' % seconds)elif os == 'windows':run_command('shutdown -s -t %s' % seconds)

9. 创建并保存报告

在训练模型后,所有的想法最终都是来自错误和评判指标的分析。因此需要创建并保存好一个格式不错的报告,以便进行汇报。

下面是一个代码例子:

import json
import osfrom sklearn.metrics import (accuracy_score, classification_report,confusion_matrix, f1_score, fbeta_score)def get_metrics(y, y_pred, beta=2, average_method='macro', y_encoder=None):if y_encoder:y = y_encoder.inverse_transform(y)y_pred = y_encoder.inverse_transform(y_pred)return {'accuracy': round(accuracy_score(y, y_pred), 4),'f1_score_macro': round(f1_score(y, y_pred, average=average_method), 4),'fbeta_score_macro': round(fbeta_score(y, y_pred, beta, average=average_method), 4),'report': classification_report(y, y_pred, output_dict=True),'report_csv': classification_report(y, y_pred, output_dict=False).replace('\n','\r\n')}def save_metrics(metrics: dict, model_directory, file_name):path = os.path.join(model_directory, file_name + '_report.txt')classification_report_to_csv(metrics['report_csv'], path)metrics.pop('report_csv')path = os.path.join(model_directory, file_name + '_metrics.json')json.dump(metrics, open(path, 'w'), indent=4)

10. 写好接口

你可以很好完成数据清理和训练模型,但是也还可能在最后制造很大的错误,比如没有写好服务接口。我的经验告诉我,很多人其实不知道如果写出一个好的服务接口,文档说明和服务安装配置。后面我会写另一篇文章介绍,但现在先简单介绍一下。

下面是一个很好的用于经典的机器学习和深度学习的部署策略,但注意是请求数量不大的时候,比如每分钟1000次。

一个组合:Fastapi + uvicorn + gunicorn

  • Fastest--采用 fastapi  写接口是非常快速的,正如[1]中的报告展示,以及原因可以参考[2];

  • 文档-- fastapi有免费的官方文档以及可以通过 http:url/docs 进行测试,并且这个链接可以自动生成以及随着我们修改代码而自动改变;

  • Workers--采用 gunicorn 服务器部署接口是因为它具有开始多于 1 个 worker 的功能,并且你应该至少保持 2 个。

运行下列命令可以部署使用 4 个 wokers ,另外可以通过测试来优化这个 workers 的数量。

pip install fastapi uvicorn gunicorngunicorn -w 4 -k uvicorn.workers.UvicornH11Worker main:app

一个运行例子如下图所示:


参考

  1. https://www.techempower.com/benchmarks/#p=test&runid=7464e520-0dc2-473d-bd34-dbdfd7e85911&hw=ph&test=query&l=zijzen-7

  2. https://fastapi.tiangolo.com/benchmarks/


精选AI文章

1. 深度学习算法简要综述(上)

2. 深度学习算法简要综述(下)

3. 关于AI你可能不知道的5件事情

4.常用机器学习算法汇总比较(完)

5.实战|手把手教你训练一个基于Keras的多标签图像分类器

精选python文章

1. Python 基础入门--简介和环境配置

2. python版代码整洁之道

3. 快速入门 Jupyter notebook

4. Jupyter 进阶教程

5. 10个高效的pandas技巧

精选教程资源文章

1. [资源分享] TensorFlow 官方中文版教程来了

2. [资源]推荐一些Python书籍和教程,入门和进阶的都有!

3. [Github项目推荐] 推荐三个助你更好利用Github的工具

4. Github上的各大高校资料以及国外公开课视频

5. GitHub上有哪些比较好的计算机视觉/机器视觉的项目?


欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

如果觉得不错,在看、转发就是对小编的一个支持!

10个实用的机器学习建议相关推荐

  1. 10个必备的机器学习开源工具

    机器学习十大开源工具 机器学习是未来.但机器会灭绝人类吗? 这应该是一个牵强附会的想法. 作为机器学习开发人员,您一定希望成功实现目标.这就是用于机器学习的开源工具的用武之地. 机器学习开源社区是活跃 ...

  2. python算法的缺陷和不足_最全最实用的机器学习算法优缺点分析

    原标题:最全最实用的机器学习算法优缺点分析 最全最实用的机器学习算法优缺点分析 2017-06-10 数据派THU 来源:AI100 本文长度为4600字,建议阅读6分钟 本文结合使用场景及实际经验, ...

  3. 适合学生自我提升的10个好网站,建议收藏

    适合学生自我提升的10个好网站,建议收藏 一.中国大学慕课(http://www.icourse163.org/ ) 中国大学生必备的学习网站,和国内317所高校都有合作.在线学习名校课程,业余时间扩 ...

  4. 汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康秘密~

    汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康秘密 *果酸可以帮助消化,如果你消化不良,那我鼓励你饭后吃一个水果.但如果你消化功能良好,饭后吃水果可能反而会帮倒忙. ...

  5. SAP MM 盘点流程中上不了台面却很实用的方案建议

    SAP MM 盘点流程中上不了台面却很实用的方案建议 SAP项目里,往往少不了MM模块,启用了MM模块就少不了盘点流程. 业务实践中,对于盘点业务,一般作业流程是: 根据企业管理策略,确定需要盘点的物 ...

  6. 分享10个实用的超绚CSS3按钮设计

    日期:2012-4-10  来源:GBin1.com CSS3在web开发技术中绝对是超棒的!随着梯度,阴影,文字阴影和边界半径属性的添加,我们现在还可以使用简单的HTML标记和CSS3代码来创建非 ...

  7. linux运维学了又忘记,Linux运维工程师经常忘记的10个实用Linux命令

    今天小编要跟大家分享的文章是关于Linux运维工程师经常忘记的10个实用Linux命令.正在从事Linux运维相关工作的小伙伴们来和小编一起看一看吧,希望能够对大家有所帮助. 1)pgrep pgre ...

  8. APP技巧:微信10个实用小技巧,太实用了,赶紧收藏!

    大家天天都在用微信,但是真正完全玩转微信的人也许并不多,今天小编给大家分享10个实用的小技巧,非常实用,赶紧分享给自己的朋友们吧! 一.对方正在输入 这个提示仅在收到消息后的10秒钟内,在对话框输入文 ...

  9. 10个实用的 ES6 方法

    毫无疑问,JavaScript 是Web开发中最流行的编程语言之一. 无论使用的是 React,Vue 还是Angular,都只是 JavaScript. JS围绕着广阔而至关重要的生态系统发展,提供 ...

最新文章

  1. 培养积极状态的八个方法
  2. JAVA框架之Hibernate【配置文件详解】
  3. zabbix-3.0.1结合grafana绘图
  4. python大文件排序_Python实现大文件排序的方法
  5. 曲线救国:提高github下载速度到2MB/s
  6. Linux 远程登录telnet和ssh
  7. 轻松获得卡巴斯基KEY
  8. vb连接mysql数据库报错_vb6连接mysql数据库
  9. Pixel手机电信4G破解(含解锁BL和root)
  10. MySQL树结构查询所有叶子节点
  11. java jdom_java中JDOM的基本使用方法
  12. 我用3天时间,整理了几十个项目的Python资料
  13. 3分钟打动投资人:商业计划书篇
  14. 辩证唯物主义和历史唯物主义思维导图 - 圣才
  15. 宠物王国6java变态版,宠物王国外传999999级变态版
  16. 利用echart和echart-gl绘制江苏省的地图之二
  17. wps打开word是绿色的怎么解决?
  18. 按图搜索1688商品接口(item_search_img-按图搜索1688商品(拍立淘接口)代码对接教程
  19. KubeSphere 社区双周报 | OpenFunction v0.8.0 发布 | 2022-12-09
  20. Web Vue IV

热门文章

  1. HTML引入媒体查询CSS,CSS3 多媒体查询
  2. java实现社交平台_GitHub - akpaul9527/symphony: 一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)平台。...
  3. php下载数据表,javascript – 如何使用php下载表数据作为excel表..?
  4. Linux Wireless架构总结
  5. Linux串口编程详解
  6. I/O多路转换 select
  7. JAVA进阶day07JNI(java调用c)A部分
  8. [html] 如何禁用掉a标签的默认事件?
  9. [jQuery] jQuery与jQuery UI有啥区别?
  10. 前端学习(2887):如何短时间内实现v-for proxy代理