摘要: 本文介绍5个新的机器学习项目,这些项目你可能还没有听说过,但确实对项目开发有所帮助,感兴趣的读者可以动手实践一下。

随着人工智能和深度学习的兴起,网络上存在的学习资源以及开源项目也越来越多。本文精选了的五个项目,都含有潜在新的机器学习想法,且全都是用Python实现。下面简单介绍

下这五个项目,感兴趣的可以自己上手复现一下,说不定会对自己的项目产生一些新的想法。

1.实时损失曲线图(Live Loss Plot)

在训练模型的时候最好不要只关注最终的结果,耐心观察整个训练过程,查看每个epoch的训练结果,弄清楚模型的训练曲线是否正常,是否出现过拟合等现象。

PiotrMigdał等人开发了一个Python源代码包,可以为Keras,PyTorch和其他框架提供实时训练损失的曲线。

当使用的是Keras深度学习框架时,实时损失曲线图可以简单地通过以下回调函数调用:

2.Parfit

该项目由Jason Carpenter开发,他是旧金山大学数据科学专业的硕士,目前是Manifold的机器学习实习生。

该项目是用于并行化Sklearn机器学习模型的拟合和灵活评分的数据包,具有可视化的功能。一旦导入该数据包,就可以自由使用bestFit()或其他功能。

代码示例:

3.Yellowbrick

Yellowbrick是一款促进机器学习模型选择的视觉分析和诊断工具。具体来说,Yellowbrick是一套名为“展示台(Visualizers)”的视觉诊断工具,它扩展了scikit-learn API,以便人为地指导模型选择过程。简而言之,Yellowbrick将scikit-learn与matplotlib结合在一起,且具有模型生成可视化的效果。

可以在这里查看Github代码示例以及使用文档介绍。

4.textgenrnn

textgenrnn为文本生成任务带来了一个额外的抽象层,目的是用几行代码就可以轻松地在任何文本数据集上训练任意大小和复杂的文本生成神经网络。
该项目建在Keras深度学习框架之上,拥有以下选择功能:

  • 一种现代神经网络架构,利用新技术作为注意力加权和跳跃嵌入来加速培训并* 提高模型质量;
  • 能够在字符级或字级上训练并生成文本;
  • 能够配置RNN大小,RNN层数量以及是否使用双向RNN;
  • 能够训练任何通用输入文本文件,包括比较大的文件;
  • 能够在GPU上训练模型,然后可以用CPU生成文本;
  • 能够在GPU上训练时利用强大的CuDNN实现RNN,与典型的LSTM实现相比,大大加快了训练时间;

Textgenrnn非常容易启动和运行,代码如下:

可以在Github上找到更多信息和示例。

5.Magnitude

Magnitude是一个快速、简单的矢量嵌入实用程序库。它也是一种功能丰富的Python软件包和矢量存储文件格式。通过Plasticity以快速、高效的方式开发机器学习模型。它主要是为Gensim提供一个更简单、更快捷的替代方案,但也可以用作NLP之外域的通用关键向量存储。

该项目提供了各种流行的嵌入模型的链接,这些嵌入模型已经以.magnitude格式准备好以供使用,还包括将任何其他文字嵌入文件转换为相同格式的说明。

使用以下代码可以将其导入:

此外,Github上有更多的信息,包括熟悉的用于使用预先训练的简化库的起步和运行的所有信息。

以上是五个器学习或机器学习相关的项目简介,你可能还没有听说过,但可能要考虑要动手实践一下,部分项目可能会对你此时的项目有所帮助。

本文作者:【方向】
阅读原文
本文为云栖社区原创内容,未经允许不得转载。

你不应该忽略的五个机器学习项目一览相关推荐

  1. svm分类器训练详细步骤_「五分钟机器学习」向量支持机SVM——学霸中的战斗机...

    大家好,我是爱讲故事的某某某. 欢迎来到今天的[五分钟机器学习]专栏内容 --<向量支持机SVM> 今天的内容将详细介绍SVM这个算法的训练过程以及他的主要优缺点,还没有看过的小伙伴欢迎去 ...

  2. 机器学习项目实战(五) 住房价格预测

    机器学习项目实战系列   住房价格预测 目录 机器学习项目实战系列   住房价格预测 一.概述 二.分析数据 1.数据导入 2.基础统计运算 3.特征观察 4.建立模型 5.分析模型表现 (1)学习曲 ...

  3. 文本分类学习 (五) 机器学习SVM的前奏-特征提取(卡方检验续集)

    前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样 ...

  4. 深度学习笔记第三门课 结构化机器学习项目 第一周 机器学习(ML)策略(1)...

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  5. 深度学习笔记第三门课 结构化机器学习项目 第二周 机器学习(ML)策略(2)...

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  6. 吴恩达深度学习笔记-布置机器学习项目(第4课)

    布置机器学习项目 一.训练集/验证集/测试集 二.偏差与方差 三.机器学习基础 四.正则化 五.为什么正则化可以减少过拟合? 六.Dropout正则化 七.理解Dropout 八.其他正则化方法 九. ...

  7. 三万字机器学习项目整理(基础到进阶)

    如果你是学生.计算机领域的工作者,我强烈建议你学习.掌握机器学习,我不敢说它是最简单的(机器学习的确很简单),但是掌握机器学习一定是性价比最高的. 本文用浅显易懂的语言精准概括了机器学习的相关知识,内 ...

  8. 【集成学习-组队学习】2.使用sklearn构建完整的机器学习项目流程

    使用sklearn构建完整的机器学习项目流程 组队学习来源: Datewhle23期__集成学习(上) : https://github.com/datawhalechina/team-learnin ...

  9. 【2021.03--集成学习(上)】使用 sklearn 构建完整的机器学习项目流程

    本次 DataWhale 第二十三期组队学习,其开源内容的链接为:[https://github.com/datawhalechina/team-learning-data-mining/tree/m ...

最新文章

  1. 超级猩猩:网红健身房的故事很好,但别为他人做了嫁衣
  2. zookeeper版本更新_ZooKeeper入门,看这篇就够了!
  3. 【问题记录】pytorch自定义数据集 No such file or directory, invalid index of a 0-dim
  4. Python科学计算(一)环境简介——Anaconda Python
  5. ClientDataSet建立索引和排序
  6. mysql环境搭载后老出错_使用Docker在window10下搭建SWOFT开发环境,mysql连接错误
  7. Dart 1(环境安装)
  8. Nginx 状态监控、缓存的两种机制(学习笔记十四)
  9. 27.MySQL Status
  10. iphone屏幕录制_苹果6s有屏幕录制吗
  11. html如何消除空格字符串,jquery如何去除字符串的空格
  12. linux系统中使用百度云盘
  13. 外架小横杆外露长度规范要求_外架小横杆外露长度
  14. 输入电容及DCM-CCM-QR变压器计算
  15. 80004005错误代码_0x80004005,小编教你解决0x80004005错误代码的方法
  16. VNC访问阿里云服务器
  17. Flutter使用Canvas实现微信红包领取效果
  18. tensorflow 学习(一)- 搭建一个三层的神经网络
  19. int bool str (索引,切片) for 循环
  20. 如何判断是不是个maven项目

热门文章

  1. mysql字符串函数混合使用_MySql字符串函数使用技巧
  2. 多节锂电串联保护板ic_BMS电池管理系统与锂电池保护板的区别
  3. linux eth0 device not found,nVidia集成驱动已经安装了,但是Device not found,我的网卡怎么用呢?...
  4. 闪退补丁_ArcGIS打开amp;闪退问题
  5. linux sendto 对方关闭后性能,Gateway的请问sendToUid是否有性能问题?
  6. 微信小程序支付html标签,微信小程序/支付宝小程序 WxParse解析富文本(html)代码...
  7. python函数式编程中南大学_中南大学C++实践报告
  8. 方舟原始恐惧mod生物代码_重磅!命令与征服和红色警戒源代码在GitHub公布了
  9. python1到1000的质数_python求第1000个质数值的简单示例
  10. 全球及中国塑料包装行业发展方向与应用前景调研报告2022版