更多精彩推荐,请关注我们

本文授权转载自数据派THU

作者:Pranav Dar

编译:张达敏

简介

越来越多的人开始踏入数据科学领域。不管你是应届毕业生、初入职场者,还是有一定相关经验的专业人士,亦或是机器学习的爱好者 – 任何人都想搭上数据科学的快车。

机器学习

https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

如果你来自印度,相信你一定读过有关政府在数据领域投资的消息(2020年联邦预算)。当下是个投资自己的绝佳时机。

在许多开启自己数据科学生涯的绝佳方式中,投资自己是其中之一。以下是一个简化的流程:

  • 找到你所感兴趣的机器学习开源项目。

  • 对于该项目,了解当前领先的解决方案。

  • 如果有相关的解决方案,从中汲取知识。但如果这种方案并不存在,就利用你所掌握的机器学习知识来创造一个。

我挑选出了5个机器学习开源项目(创建于2020年1月)来帮助你了解行业领先的框架和库。同往常一样,我尽可能保证这些项目的多样性。你会注意到其中包括一些取自自然语言处理和Python编程的想法。

如果你对以往月刊系列展示的项目感兴趣,下方已放置链接。这个系列已经创办三年了 – 要对我们社区铺天盖地的响应表示感谢!

https://www.analyticsvidhya.com/blog/category/github/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

目录

1. Reformer – PyTorch里的高效Transformer

2. PandaPy – 你最爱的Python库

3. 谷歌地球引擎 – 用300多个Jupyter笔记本来分析地理空间数据

4. AVA – 自动化视图分析

5. Fast Neptune – 你的机器学习项目加速器

谷歌地球引擎 – 用300多个Jupyter笔记本来分析地理空间数据

https://github.com/giswqs/earthengine-py-notebooks

Fast Neptune – 你的机器学习项目加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

回归正题,以下是5个机器学习开源项目。

Reformer – PyTorch里的高效Transformer

https://github.com/lucidrains/reformer-pytorch

Transformer架构的出现改变了自然语言处理。越来越多的自然语言处理框架开始进入大众视野,例如BERT, XLNet, GPT-2.

自然语言处理

https://courses.analyticsvidhya.com/courses/natural-language-processing-nlp?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

自然语言处理框架

https://www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

BERT

https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

GPT-2

https://www.analyticsvidhya.com/blog/2019/07/openai-gpt2-text-generator-python/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

但也存在一个问题 – 这些基于Transformer的模型实在是太大了。它们的确实现了行业领先的结果,但成本高的同时,对于大部分仅仅想学习并使用它们的人来说,这些框架超出了他们的能力范围。

“Reformer模型,它和Transformer模型一样优秀,而且它占用的资源和成本更少”

上面的Github链接包含了利用PyTorch搭建Reformer的方法。除了完整的代码,该项目的作者还提供了一个简单且高效的例子来帮助你建模。

我强烈建议你先读一篇关于Reformer的内部原理的官方研究。

https://openreview.net/pdf?id=rkgNKkHtvB

你可以通过这个指令在你的机器上安装Reformer。

pip install reformer_pytorch

如果你还不了解Transformer架构和PyTorch框架,建议先阅读一下文章。

  • How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

  • A Beginner-Friendly Guide to PyTorch and How it Works from Scratch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PandaPy – 你最爱的Python库

https://github.com/firmai/pandapy

上周我刚刚熟悉了一下PandaPy并在我当前项目里加以运用。它是个很神奇的Python库,将来很有可能成为主流。

如果你的机器学习项目涵盖了很多混合数据类型(int,float,datetime,str等等),你真的应该尝试一下PandaPy而不是Pandas。相比于Pandas,用PandaPy处理混合数据类型能为你节省三分之一的内存。

“如果你在生产环境里使用较小的Pandas数据帧(5万以内),那你应该尝试替换成PandaPy。”

以下三点你会觉得很有趣(这些都是PandaPy的Github上的原话):

  • 在小数据集上进行简单计算时(例如加法、乘法、取对数),PandaPy比Pandas快25至80倍。

  • 在小数据集上进行表操作时(例如聚合、透视、删除、合并、填充缺失数据),PandaPy比Pandas快5-100倍。

  • 在大多数小数据使用情况下,PandaPy比Dask,Modin Ray和Pandas都要快。

通过pip安装PandaPy:

!pip3 install pandapy

如果你对Pandas依旧念念不忘,在这里你能找到最新正式版本(v1.0.0)。

https://www.analyticsvidhya.com/blog/2020/01/pandas-version-1-top-4-features/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

谷歌地球引擎 – 用300多个Jupyter Notebook来分析地理空间数据

https://github.com/giswqs/earthengine-py-notebooks

这个Github库极其优秀!有很多有抱负的数据科学家在领英上向我询问如何着手进行地理空间分析。这是一个拥有千兆数据的有趣领域。我们仅仅需要一个结构化的方法来清理分析这些数据。

“这个库囊括超过300个Jupyter Notebook,其中包含了如何使用谷歌地球引擎数据的例子”

谷歌地球引擎

https://earthengine.google.com/

这是一个炫酷的GIF图片,它展示了一个通过这些Notebook能得到的可视化视图:

这些Notebook主要基于三个Python库来运行代码:

  • Earth Engine Python API

  • Folium

  • Geehydro

这个Github库有大量的Python例子能够帮你上手。好好研究一下,玩得开心!

这还有一篇很优秀的文章能帮你上手地理空间数据:

Geospatial Data and its Role in Data Science

https://medium.com/analytics-vidhya/geospatial-data-and-its-role-in-data-science-c60b2e0d3f7f

AVA – 自动化视图分析

https://github.com/antvis/AVA

还有一个很优秀的数据可视化概念。数据发掘自动化的想法已经流传一段时间了,但一直没有实质性的框架出现。直到现在:

“AVA,自动化视图分析的简写,是阿里巴巴为了让视图分析更智能化和自动化所创造的框架。”

下面这个GIF图片是AVA的演示:

我强烈推荐你了解下面的资源,它们能帮你创建和加强数据可视化简介:

  • Mastering Tableau from Scratch: Become a Data Visualization Rockstar

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

  • Collection of Data Visualization Articles and Tutorials

https://www.analyticsvidhya.com/blog/tag/data-visualization/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

Fast Neptune – 你机器学习项目的加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

现如今,不论是学术界还是工业界,生产力是任何一个机器学习项目的重要指标。我们需要追踪每一个测试、每一次迭代,以及每对参数和结果。

“Fast Neptune库能够快速记录开展机器学习测试所需的所有信息。也就是说,Fast Neptune是上文所提及的生产力问题的答案。”

Fast Neptune有几个特性能够帮我们进行快速测试(从上文链接里引用):

  • 有关运行代码的机器的元数据,包括系统及系统版本。

  • 对测试所在的Notebook的相关要求。

  • 在测试过程中用到的参数,也就是你想追踪的变量的值的命名。

  • 测试过程中你想记录使用的代码。

是不是很直观?你只用一行代码就可以安装Fast Neptune:

pip install fast-neptune

几个值得关注的框架:

我还想介绍其他几个2020年1月发行的框架,你应该关注一下:

1. Thinc:这是一个spaCy作者制作的轻量化深度学习库。Thinc“为composing model提供一个优雅、能够类型检查、功能化编程的接口,同时为其他框架定义的层提供支持,例如PyTorch,TensorFlow或者MXNet”

Thinc

https://thinc.ai/

spaCy

https://www.analyticsvidhya.com/blog/2019/09/introduction-information-extraction-python-spacy/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PyTorch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

TensorFlow

https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

2. 谷歌仿人类生成聊天机器人:谷歌创造的Meena是一个拥有26亿参数点对点训练的神经交谈式模型。相比于行业领先的聊天机器人,Meena能够引导更合理更具体的对话。谷歌会开源Meena的代码吗?我们还不得而知,但这是个值得关注的事。

谷歌仿人类生成聊天机器人

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

结束语

2020是机器学习快速发展的一年。先进技术会继续快速进化,以至于让新手难以快速上手。

这也是我发表这些月刊的初衷,把最有相关性和实用性的开源机器学习项目带给我们的社区。

你有没有其他想了解的机器学习项目或框架?我非常想在下面的评论区听听你的想法和主意。让我们一起头脑风暴。

你也可以通过Analytics Vidhya的安卓软件阅读这篇文章。

原文标题:

5 Open Source Machine Learning Projects to Challenge your Inner Data Scientist

原文链接:

https://www.analyticsvidhya.com/blog/2020/02/5-open-source-machine-learning-projects-data-scientist/

2020年CDA课程全新升级

扫描下方二维码

咨询CDA数据分析课程详情

长 按 关 注

CDA课程咨询

联系人:史老师

电话:18080942131

5个机器学习开源项目,挑战你的数据科学技能!(附链接)相关推荐

  1. 2018 年度 GtiHub 开源项目 TOP 25:数据科学 机器学习

    2018 年度 GtiHub 开源项目 TOP 25:数据科学 & 机器学习 雷锋网 AI 科技评论按:本文作者 Pranav Dar 是 Analytics Vidhya 的编辑,对数据科学 ...

  2. 独家 | 5个机器学习开源项目来挑战你的数据科学技能!(附链接)

    作者:Pranav Dar 翻译:张达敏 校对:吴振东 本文约3100字,建议阅读10分钟 5个富有挑战性的机器学习开源项目帮你找到2020的正确打开方式,以下机器学习项目涉及多个领域,包括Pytho ...

  3. 推荐 : 5个机器学习开源项目来挑战你的数据科学技能!(附链接)

    作者:Pranav Dar   翻译:张达敏    校对:吴振东 本文约3100字,建议阅读10分钟 5个富有挑战性的机器学习开源项目帮你找到2020的正确打开方式,以下机器学习项目涉及多个领域,包括 ...

  4. huggingface实操_2018 年度 GtiHub 开源项目 TOP 25:数据科学 机器学习

    前沿 关于托管代码.与团队成员合作以及充当展示个人写代码技能的「在线简历」,最好的平台是哪个?问及任何一位数据科学家,他们都会让你去 GitHub.近年来,GitHub 作为一个真正具有变革性的平台, ...

  5. 谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

    在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享.加入这开源大潮的,不仅有学界师生,更有国内外的互联网巨头们:国内有百度和腾讯,国 ...

  6. 机器学习开源项目Top10

    整理 | Jane 出品 | AI科技大本营 [导语]又到了我们固定给大家推荐开源项目的时间.本期将为大家推荐 10 个机器学习开源项目,统计了过去一个月中 250 个机器学习开源项目,并从中选取了本 ...

  7. 11月最佳机器学习开源项目Top10!

    整理 | Jane 出品 | AI科技大本营 过去一个月,我们从近 250 个机器学习开源项目中挑选出了最受大家关注的前十名.这些项目在 GitHub 上平均 Stars 数为 2713.这些项目涉及 ...

  8. 10月机器学习开源项目Top10

    作者 | Mybridge 译者 | 林春眄 整理 | Jane 出品 | AI科技大本营 [导读]过去一个月里,我们对近 250 个机器学习开源项目进行了排名,并挑选出热度前 10 的项目.这份清单 ...

  9. 9月机器学习开源项目Top10

    作者 | Mybridge 译者 | 王天宇 整理 | Jane 出品 | AI科技大本营 [导读]我们从过去一个月近 250 个有关机器学习的开源项目中,精心挑选出了最热门的 10 个.在挑选过程中 ...

最新文章

  1. 精心推荐7款windows端实用软件,让人大开眼界!
  2. 上下位机通讯协议_上位机与下位机的区别通讯
  3. python中常见的流程结构-python常见对象的结构
  4. 记录一次quartus II prime standard 18添加器件库的方法
  5. JZOJ 4366. 【GDKOI2016】项链
  6. EF支持复杂类型的实现
  7. MongoDB Driver:使用正确的姿势连接复制集
  8. Arrays.sort()用来自定义排序的使用
  9. ubuntu16 黑主题_给Ubuntu 8.10安装超炫酷黑色新主题
  10. jquey-整屏滚动的制作过程
  11. C#LeetCode刷题之#581-最短无序连续子数组( Shortest Unsorted Continuous Subarray)
  12. 红帽为开发订阅成员提供的免费福利
  13. centos7如何添加开机启动服务/脚本
  14. 《Web漏洞防护》读书笔记——第9章,XSS防护
  15. 数据类型 --生成器
  16. 计算机二级c语言编程题库100题下载,计算机二级C语言编程题库100题.doc
  17. 阅读乔布斯:一个人留下的世界
  18. java txt文件追加_java如何追加写入txt文件
  19. 【MATLAB appdesigner】23_如何通过回调函数来实现“键盘操作”?
  20. xshell支持图形_Xshell打不开图形化界面,或许该这样做!

热门文章

  1. 树莓派+lora_gateway
  2. 常见的四种排名函数的用法(sql)
  3. 下角标怎么打java_java 实现excel中上下角标处理实现原理
  4. 《域名投资,从入门到建站》老顾域名投资和网站运营十年经验实战宝典 !
  5. 【MATLAB绘图】3sigma即剔除小概率事件功能的使用
  6. hive基本概念原理与底层架构
  7. nmap 端口说明和扫描顺序
  8. 基于51单片机的四路抢答器仿真
  9. 完了,又火一个软件测试实战项目
  10. modelsim仿真quartus软件IP核错误及解决办法