作者 | PRANAV DAR
译者 | SAMBODHI
编辑 | Debra
AI 前线导读:如果你是开发者,那一定对 GitHub 不会陌生,截止到 2018 年 4 月 10 日(GitHub 上线 10 周年),已经拥有超过 2700 万开发者,分布在全世界,在超过 8000 万个项目上进行着紧密协作。Reddit 是网页新鲜事件和热点事件的源头,它也是互联网最有趣的地方和有高度组织的链接集中处。不仅你能在 Reddit 上分享链接,你也能遇到许多和你一样分享着同样兴趣的志趣相投的用户。正因为此,GitHub 和 Reddit 成为了全世界开发者的宠儿。PRANAV DAR 就整理了他认为的不可错过的五月份精选数据科学和机器学习的 GitHub 开源库和 Reddit 话题,AI 前线翻译后以飨读者。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

介绍

对我而言,GitHub 和 Reddit 都提供了有趣的发现平台。在这两个平台中,我不仅学习到了数据科学的一些最佳应用,而且还了解了它们是如何编写的,并希望将来有朝一日能为这些开源库做出贡献。

微软最近斥资数十亿美元收购了 GitHub。一直以来,GitHub 是开发人员之间协作的终极平台,我们看到,数据科学和机器学习的社区对 GitHub 也是青睐有加。我们也希望,这一状况,在微软收购 GitHub 之后还能持续下去。

至于 Reddit,它依然是数据科学家们的一个极好的知识和观点的来源。人们在 Reddit 上分享他们的代码、其他人的代码、一般的数据科学新闻、寻求帮助和意见、发表研究论文等链接。这是一个真正强大的社区,为与其他数据科学爱好者互动提供了可靠的平台。

今年 5 月,我们在 Reddit 上看到了一些精彩的讨论,其中包括未来 3 年数据科学家的作用,以及一组有史以来最好的机器学习论文集。在 GitHub 社区中,Intel 开放了它的 NLP 架构库,微软发布了 ML.NET 来支持 Dot Net 开发者的机器学习等等。

让我们深入这个列表,看看 GitHub 上的最热门的库以及上个月发生在 Reddit 上有趣的讨论。

你可以查看以下过去四个月的 GitHub 最热门的库和 Reddit 上最热门的讨论(截止到四月):

一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/

二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018

三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018

四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/

GitHub 库
ML.NET

(https://github.com/dotnet/machinelearning)

ML.NET 是一个开源的机器学习框架,旨在让 ML 面向.NET 开发人员。有了 ML,开发人员得以能够在.NET 开发自己的模型,而所有这些都不需要构建机器学习模型的经验。目前是个预览版,包含基本的分类和回归算法。

ML.NET 最初由 Microsoft 开发,现已广泛应用于 Windows、Excel、Access、Bing 等产品中。这个版本还捆绑了.NET API,用于各种模型训练模型的任务。

NLP Architect

(https://github.com/NervanaSystems/nlp-architect)

NLP Architect 是一个开源的 Python 库,旨在让数据科学家能够得以探索自然语言处理(Natural Language Processing,NLP)和自然语言理解(Natural Language Understandings,NLU)领域中最先进的深度学习技术。该库由 Intel Lab 的研究人员开发并开源。

这个库中,我最喜欢的组件之一是可视化组件,它以整洁的方式显示模型的注释。访问这个网址来查看我们对 NLP Architect 的报道:

https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/

Amazon Scraper

(https://github.com/tducret/amazon-scraper-python)

这个 Python 包使你能够从 Amazon 搜索和提取产品信息。与其编写几行代码来确定需要分析哪些产品,不如使用这个包就可以了。你需要做的就是输入想要搜索的关键词和最大产品数量(这是可选的)。你可以使用 CSV 格式获得输出,然后将其插入你最喜欢的工具中并开始分析。

PIGO – Face Detection in Go

(https://github.com/esimov/pigo)

PIGO 是一个用 Go 编程语言开发的人脸检测库。它是基于这篇研究论文 Pixel Intensity Comparison -based Object detection(https://arxiv.org/pdf/1305.4537.pdf)开发的。根据该库的说明,这个库的一些主要特点是:

处理速度快;在检测之前无需对图像进行预处理;无需计算积分图像、图像金字塔、HOG 金字塔或任何其他类似的数据结构;人脸检测是基于二进制文件数据树结构编码的像素强度比较。

RL-Adventure-2: Policy Gradients

(https://github.com/higgsfield/RL-Adventure-2)

这个库是为所有的强化学习爱好者开发的。深度学习已经推动了强化学习编程人工智能以人类专家水平技能进行 Atari 游戏。这个库涵盖了策略梯度算法的有趣的新扩展,这是解决强化学习问题的最受欢迎的默认选择之一。这些扩展带来了训练时间的改善,提升了强化学习的整体表现。

Reddit 讨论
实时多手姿态判断演示

(https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/)

作者将上述概念以视频的形式发布后,讨论就开始了。这是一个令人着迷的概念,使用深度学习来看到它变得生动起来,这真是一件美妙的事情。它引起了数据科学家和机器学习爱好者的关注,正如你可以通过讨论中的问题数量看得出。我鼓励大家去浏览一下这些讨论,你们会对这项技术是如何实现的有一个很好的认识。

为了证明机器学习之美,你们会选择哪篇研究论文来证明这一点?

(https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/)

如果你是机器学习的菜鸟,或者正在寻找需要阅读或者参考的论文,那么这就是一条很棒的线索。在这场讨论中提到的一些优秀的机器学习研究论文,每一个有远大抱负或有所建树的数据科学家都会从中受益。这场讨论包含了从基本的机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换)、使用简单功能的提升级联来实现快速目标检测等论文。

我们目前对泛化了解多少?接下来该问些什么呢?

(https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/)

深度学习中的泛化问题一直是人们争论不休的话题。正如这篇文章的作者所提到的,我们仍然有不少场景需要努力去实现任何泛化。这就引起了对目前的泛化现状的深入讨论,以及为什么泛化在深度学习和强化学习中很难理解。这些讨论中,包括冗长的帖子,如果你是这个领域的菜鸟,这些帖子对你来说可能有点复杂。尽管如此,我还是建议你,无论如何都要通读这些帖子,因为这些帖子都是由一些经验丰富、知识渊博的数据科学家提出的看法。

医疗行业中的机器学习状况

(https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/)

这个话题深入研究了医疗行业(不是研究领域)当前的机器学习现状。这个行业的数据科学家分享了他们在工作中得到的经验和观点。当谁找你询问生命科学领域中有关机器学习和深度学习的任何问题时,你就可以参考这个话题。

未来三年数据科学家的职业发展前景

(https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/)

这个话题,也是大多数人在进入该领域之前都会问的一个非常相关的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会需要数据科学家吗?这个话题收集了数据科学领域中不同人士的观点,他们认为数据科学家在未来几年内将会扩展或者多样化。这里有一些很好的职业建议,所以一定要来看一下。

原文链接:

https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

5月Github上最热门的数据科学和机器学习项目TOP5相关推荐

  1. 5月份Github上最热门的数据科学和机器学习项目

    GitHub最近以数十亿美元的交易被微软收购.GitHub一直是开发人员之间协作的终极平台,我们已经看到数据科学和机器学习社区同样非常需要它,因此,我们希望GitHub能在微软的保护下继续发展下去. ...

  2. Github上的10个数据科学和机器学习知识库

    来源:DeepHub IMBA 本文共1200字,建议阅读5分钟在本文中将介绍一些对数据科学和机器学习爱好者最有用的 Github 代码库.(排名顺序不分先后) 1.The Algorithm 数据结 ...

  3. python开源项目2019_2019年6月Github上最热门的Python开源项目

    原标题:2019年6月Github上最热门的Python开源项目 来自:开源最前线(ID:OpenSourceTop) 6月份GitHub上最热门的Python开源项目新鲜出炉,一起和猿妹盘点一下本月 ...

  4. 牛逼轰轰!GitHub 上 Star 量最高的 5 个机器学习项目

    点击上方"小詹学Python",选择"星标"公众号 重磅干货,第一时间送达 转自 | 机器之心 本文介绍了 GitHub 上 star 量最高的 5 个机器学习 ...

  5. GitHub上Star 量最高的 5 个机器学习项目

    编译:机器之心,作者:Rishi Sidhu 本文介绍了 GitHub 上 star 量最高的 5 个机器学习项目,涉及人脸识别.文本处理.机器学习框架等. 机器学习领域正在飞速发展.GitHub 是 ...

  6. 近几个月Github上最热门的Java项目一览

    今天逛了逛Github,顺手精选出了一下近几个月以来Github上最热门的12个Java项目.如果遇到自己感兴趣的开源项目,不妨去学习一下哦! 1. java-design-patterns(Star ...

  7. 2020年1月Github上最热门的开源项目

    来自:开源最前线(ID:OpenSourceTop)  1月份GitHub上最热门的开源项目排行已经出炉啦,一起来看看上榜详情: 1 the-book-of-secret-knowledge http ...

  8. 2020年2月Github上最热门的开源项目

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来自:开源最前线(ID:OpenSourceTop)  2月份GitHub上最热门 ...

  9. 2020年10月GitHub上最热门的开源项目

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | 开源最前线(ID:OpenSourceTop) ...

最新文章

  1. 2021年大数据常用语言Scala(十三):基础语法学习 函数 重点掌握
  2. Python常用语句及流程控制
  3. deepin linux桌面设置,在Deepin Linux桌面创建快捷方式
  4. .net hbase client--终于浮出水面的轮子
  5. 对一句正则表达式的理解
  6. 信息学奥赛一本通 1099:第n小的质数 | OpenJudge NOI 1.5 44
  7. android runnable内存泄漏,这个Runnable可以防止内存泄漏吗?
  8. 天天写代码,觉得自己特别苦逼?嗯,还有20年AI就来解放你
  9. Quartz任务调度器
  10. Python标准库(非常经典的各种模块介绍)
  11. (KNN)K-近邻算法介绍和 Facebook签到位置预测案例应用
  12. EDU教育网邮箱申请注册享受Apple、微软、Github等产品教育优惠附带各优惠申请教程
  13. 简单易懂的Kubernetes(K8S)之Pod资源管理与harbor创建
  14. WinForm分页控件
  15. mysql数据库安全开关_对MySQL数据库的安全进行的详述
  16. 基于yolov5的目标检测和单目测距
  17. 基于html家具装饰网站设计毕业设计.rar(含论文毕设+项目源码+答辩设计+成绩评分表+评定表)
  18. 深度学习--卷积神经网络
  19. 疯狂python讲义豆瓣评分_书榜 | 计算机书籍(9.9-9.15)销售排行榜
  20. mysql大写和小写_MySQL大写和小写问题

热门文章

  1. python 归一化使用
  2. 使用HttpClient的时候报错java.io.IOException: Attempted read from closed stream
  3. 20230411笔记-MTK天玑开发者日(北京站)
  4. python+tensorflow CNN卷积神经网络手写字体识别
  5. php截断,php include 路径截断漏洞的利用
  6. 旅客因航班耽搁殴打工作职员被拘
  7. git github 快速入门
  8. 男人二十岁后应该学会的习惯
  9. Matlab:调试成功运行失败的解决方法(附加求助!)
  10. python中一般使用几个空格表示缩进_python中使用空格还是使用 Tab键缩进的建议...