原文标题:15 Trending Data Science GitHub Repositories you can not miss in 2017

作者:SUNIL RAY

翻译:杨金鸿

校对:闵黎

本文长度为3400字,建议阅读5分钟

本文为你分享2017年最热门的GitHub项目列表。

简介

GitHub最初的只是一个控制软件版本的工具,如今已经发展成为由来自不同背景的GitHub使用者共享他们自己开发的工具/库,甚至是有用代码库。

GitHub是一座蕴藏了丰富资源的知识宝库,您不仅可以看到最优秀的开源贡献项目,还可以看到这些项目的代码是如何编写和实现的。作为一名狂热的数据科学爱好者,我在2017年末我整理了一份最热门的GitHub项目列表。快来享受和坚持学习吧!

目录

一、学习资源库

1.强大的数据科学

2.机器学习/深度学习手册

3. 牛津深度自然语言处理课程讲座

4. PyTorch——教程

5. NIPS 2017资源

二、开源软件

1. TensorFlow

2. TuriCreate-一个简化的机器学习库

3. OpenPose

4. DeepSpeech

5. 移动深度学习

6. Visdom

7. 深度照片类型转换

8. CycleGAN

9.Seq2seq

10.Pix2code

一、学习资源库

1. 强大的科学数据科学

GitHub库是数据科学首选的终极资源指南。多年来,它是建立在多个不同的开源的资源项目基础之上,这些资源包括从入门指南、信息图表到人们的社交资源网站如:twitter、facebook、Instagram等。不管你是新手还是老手,这里都有大量的项目资源等待着你学习。

从GitHub库的目录结构中可以看出,所有的Github库都是与各种资源库的深度集合。

Github库的连接地址:

https://github.com/bulutyazilim/awesome-datascience

2. 机器学习/深度学习参考指南

这个资源库把常用的工具和技术以参考指南的形式组织起来。这些参考指南内容从非常简单的工具(如pandas)到非常复杂的技术(如深度学习)应有尽有。当你提供了一颗星星或分支一个资源库之后,就不再需要通过谷歌浏览器来搜索常用的提示和小技巧。

让我们来看一看有哪些不同类型的参考指南,例如pandas, numpy, scikit learn, matplotlib, ggplot, dplyr, tidyr, pySpark 和神经网络等。

这些参考指南资料的链接地址:

https://github.com/kailashahirwar/cheatsheets-ai

3. 牛津大学深度自然语言处理课程

斯坦福大学的NLP课程一直是人们想要进入自然语言处理领域的黄金课程。但是随着深度学习的出现,NLP已经取得了巨大的进步,这一切都要归功于像RNN和LSTMs这样的深度学习架构。

基于牛津大学NLP课程的资源库把NLP的学习带向了新的高度。这些课程涵盖了与实践操作相关的技术和术语,例如使用RNNs进行语言建模,语音识别,语音合成文本等。这个资源库是牛津课程所有教材的一站式存储,为实践操作提供了必备的资料。

这个库的链接地址:

https://github.com/oxford-cs-deepnlp-2017/lectures

4. PyTorch——教程

到目前为止,PyTorch是Tensorflow唯一的竞争对手。PyTorch的Python化的编码风格、动态计算和快速的原型设计赢得了盛赞,因此获得了深度学习社区的高度关注。

这个资源库包含了用于深度学习的工作代码,例如在PyTorch中创建一个神经网络这样的基本任务,以及编写RNN、GANs和神经风格迁移算法的代码。大多数模型的功能实现只需要30行代码。这说明PyTorch所提供的抽象化功能,使研究人员能够集中精力快速寻找正确的模型,而不是纠缠于编程语言或工具选择这些细节的问题。

PyTorch库的链接地址:

https://github.com/yunjey/pytorch-tutorial

5. NIPS 2017资源

这个资源库提供了NIPS 2017大会的资源列表,包括了所有邀请的会谈、教程讲座和研讨会上的资料和幻灯片。NIPS (Neural Information Processing Systems), 是专门为机器学习和计算神经科学领域举办的年度顶级国际会议。

在过去几年中,在数据科学行业中发生的大多数突破性研究成果都是在这个会议上提出的。如果你想立于数据科学的潮头,那么这里是你获得正确资源的源头。

二、开源软件

1. TensorFlow

TensorFlow正式发布已经有2年了,但它一直保持着顶尖的机器学习/深度学习库的地位。Google大脑和TensorFlow开发的社区一直在积极地作出贡献,并保持与最新的技术发展同步,特别是在深度学习领域。

TensorFlow最初是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。但是从TensorFlow的发展现状看,可以说它是一个构建深度学习模型的完整资源库。虽然TensorFlow主要支持Python,但它也支持C、C++、Java等语言,最要的是它可以在移动平台上运行。

TensorFlow的链接地址:

https://github.com/tensorflow/tensorflow

2. TuriCreate-一个简化的机器学习库

最近最热的话题是苹果公司的开源贡献项目TuriCreate。它简化了机器学习模型的创建和部署,可用于复杂的任务,如对象检测、活动分类和推荐系统。

作为一名数据科学爱好者,我记得Turi创建了GraphLab——一个神奇的机器学习库,因而被苹果公司收购。数据科学行业的每个人都在期待这种爆炸性的事情发生。

TuriCreate是专门为Python的使用者开发的。它提供的最好的功能之一是可以轻松地将机器学习模型部署到Core ML(苹果公司的另一个开源软件)中,使用在iOS、macOS、watchOS和tvOS的应用程序中。

TuriCreate的链接地址:

https://github.com/apple/turicreate

3. OpenPose


OpenPose是一个多目标人体关键点检测库,它可以帮助你实时检测图像或视频中人的位置。OpenPose由CMU的感知计算实验室开发,下面这个例子很好地说明了开源的研究项目也可以很容易被工业界接受。

动图请查看原文链接

OpenPose这个最好的使用案例是帮助人们解决活动检测的问题。例如,参与者所做的动作可以被实时捕获。然后,这些关键点和他们的动作可以被制作成动画电影。

OpenPose用C++的API访问。同时,也可以用简单的命令行界面来处理图像或者视频。

OpenPose的链接地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

4. DeepSpeech

DeepSpeech库是百度研究中最先进的语音文本合成技术的开源项目。它基于TensorFlow,可以在Python,NodeJS和命令行中使用。

Mozilla是从无到有参与构建开源DeepSpeech库的主要成员之一“只有少数几家主导商业优质语音识别服务的大公司才可以做出好的深度语言技术。这不仅减少了用户的可选择性,也降低了初创公司、研究人员甚至更大的公司对产品的可用性。因此这些公司想要让他们的产品和服务变得更好,就要与志同道合的开发者、公司和研究人员组成一个社区。我们采用了先进的机器学习和各种各样的创新技术来构建一个语音到文本的引擎”。Mozilla的技术战略副总裁肖恩怀特在一篇博文(https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/)中写道。

DeepSpeech库的链接地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

5. 移动深度学习

这个知识库为移动平台带来了最先进的数据科学技术。该知识库是由百度研究开发,目的是在Android和IOS等移动设备上部署深度学习模型,降低复杂性,提高运行速度。用移动深度学习库中的一个简单的用例来解释,例如对象检测,它可以识别一个移动物体在图像中的确切位置,是不是很酷啊?

动图请查看原文链接

移动深度学习库的地址:

https://github.com/baidu/mobile-deep-learning

6. Visdom

Visdom是一个支持在协作者之间传播图形、图像和文本的库。您可以通过编写程序程或UI生成您的可视化空间,创建实时数据的显示板,检查实验结果,或调试实验代码。

对于绘图函数输入的精度不同,尽管它们中的大多数都是输入一个张量(三维)X不包含数据,和一个(可选择)张量(三维)Y包含可选的数据变量(如标签或时间戳)。绘图函数支持所有的基本绘图类型,创建由Plotly提供的可视化。

Visdom支持在Python中使用Torch和Numpy。

Visdom库的连接地址:

https://github.com/facebookresearch/visdom

7. 深度照片类型转换


该库来源于一篇研究论文(https://arxiv.org/pdf/1703.07511.pdf),介绍了一种深入学习摄影类型转换方法,它可以处理大量的图像内容,忠实传递图片相关类型样式。该方法成功地抑制了失真,并在各种场景中,,包括时间的转移、天气、季节和艺术编辑,产生了令人满意的相片般逼真的风格。这段代码是基于Torch实现。

该库的连接地址:

https://github.com/luanfujun/deep-photo-styletransfer

8. CycleGAN


CycleGAN是一个有趣且功能强大的库,展示了潜在的最先进技术。举个例子,下面的图片是该库可以做的事情——调整图像的深度感知。它的先进性在于不需要你告诉算法,需要处理图像的哪一部分,它能通过自己的算法做出判断。

目前,该库是用Lua编写的,但也可以在命令行中使用。

该库的链接地址:

https://github.com/junyanz/CycleGAN

9. Seq2seq


Seq2seq最初是为机器翻译而编写的,但后来被开发用于各种其他任务,包括摘要、会话建模和图像字幕。只要一个问题能够以一种格式编码输入并解码成另一种格式输出,就可以使用这个框架。它是用Python中流行的Tensorflow库编写的。

该库的链接地址:

https://github.com/google/seq2seq

10. Pix2code


Pix2code是深度学习领域一个非常振奋的项目,这个项目的功能点在于试图给GUI自动生成代码。当构建网站或移动界面时,前端工程师通常需要编写重复的代码,这个耗时且非生产性的工作阻碍了开发人员将大部分时间用于实现他们正在构建的软件的实际功能和逻辑。Pix2code可自动完成这个这个繁琐的工作。它基于一种新颖的方法,允许从单个GUI屏幕截图中生成计算机标识语言作为输入。

这有是一个解释pix2code用例的视频,链接地址:

https://youtu.be/pqKeXkhFA3I

Pix2code是用python编写的,可用于捕获移动和web界面的图像并将其转换成代码。

该库的连接地址:

https://github.com/tonybeltramelli/pix2code

尾注

我希望你能了解到2017年GitHub上发布的一些新开源工具或技术。如果你在过去看到过更多这样有用的资源,请在下面的评论中告诉我。

原文链接:

https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/


杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。

翻译组招募信息

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


点击“阅读原文”加入组织~

独家 | 这15个最热门的GitHub库你不可错过!相关推荐

  1. 15个最热门的GitHub库

    原文标题:15 Trending Data Science GitHub Repositories you can not miss in 2017 作者:SUNIL RAY 翻译:杨金鸿 校对:闵黎 ...

  2. 2017年度盘点:15个最流行的GitHub机器学习项目 By 机器之心2017年12月21日 15:23 在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学、机

    2017年度盘点:15个最流行的GitHub机器学习项目 By 机器之心2017年12月21日 15:23 在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学.机 ...

  3. fir.im Weekly - 热门 iOS 第三方库大盘点

    本期 fir.im Weekly 收集的热度资源,大部分关于www.gyjqfkyy.comAndroid.iOS 开发工具.源码和脑洞大开的 UI 动画,希望给你带来更多的工作创意与灵感. 盘点国内 ...

  4. 路径规划Github库推荐

    查找路径规划相关资料,看到一篇博客下给推荐的这个GitHub库.看了一下,发现带有动画演示,很直观,比较容易理解.所以给大家推荐出来,方便学习. 常用的带有动画的路径规划算法 https://gith ...

  5. android将项目添加到github,将github库作为依赖添加到Android-Studio项目中

    将github库作为依赖添加到Android-Studio项目中 我试图从https://github.com/chrisbanes/ActionBar-PullToRefresh/wiki/Quic ...

  6. Github库名命名规范

    Github库名命名规范 一.必要性说明 由于迁移到Github上的项目越来越多,对项目的管理越来越困难.由于各项目命名具有随意性,用之代表git仓库名后就很难快速回忆起这个项目的相关细节,通常需要不 ...

  7. 机器学习丨15个最流行的GitHub机器学习项目

    来源:数据Seminar 本文约3800字,建议阅读7分钟. 本文列出了 2017 年 GitHub 平台上最为热门的知识库,其中包含了学习资料与工具. GitHub 是计算机科学领域最为活跃的社区, ...

  8. 独家下载!2021前端热门技术解读

    简介:<2021前端热门技术解读>来啦,你关注的前端技术热点都在这里,快来下载吧! 2021 前端工程师应该关注哪些技术?阿里巴巴前端委员会重磅推荐! 复制该链接到浏览器完成下载或分享:h ...

  9. 2020年,那些「引爆」了机器学习社区的热门论文、库和基准

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 2020 年出现了哪 ...

最新文章

  1. 算法提高 学霸的迷宫
  2. python3最新稳定版本-python稳定版本
  3. 微信小程序uni.switchTab传参获取不到;小程序跳转到tabBar页并传参;uni-app微信小程序获取tabBar页面参数失败;uni-app微信小程序tabBar页面onLoad不执行
  4. 机器学习笔记(五):逻辑回归
  5. Mac OSX 下高效安装 homebrew 及完美避坑姿势
  6. 伪样式:hover ,:active,:focus
  7. iOS版微信跟上了!已支持改微信号,修改后好友不会收到提醒
  8. Java关键字表格、Java有哪些关键字?
  9. Charles 使用教程
  10. 微信聊天记录删除了怎么恢复
  11. java泛型(1) 认识泛型
  12. Blender建模(二)
  13. Minecraft mod制作简易教程(五)——本地化和国际化
  14. Java poi 生成PPT并插入Excel附件并以图片形式显示代-代码例子
  15. malicious java_[我研究] Detecting Malicious Java Code Using Virtual Machine Auditing
  16. Android EventBus的实现原理
  17. Redis过期策略---实现原理
  18. 阿里云发布首款云电脑“无影”,价格仅传统电脑的一半
  19. 接手了屎一样的代码 怎么办?
  20. CobaltStrike魔改与增强

热门文章

  1. 十分钟完成Bash 脚本进阶!列举Bash经典用法及其案例
  2. 安装网页图形界面管理Linux
  3. [裴礼文数学分析中的典型问题与方法习题参考解答]4.3.20
  4. c语言程序设计上机考试占多少分,C语言程序设计上机考试题目汇编.doc
  5. 协方差中的正相关与负相关
  6. JAVA事物API JTA
  7. 调用wordcloud种种问题
  8. python @修饰符作用
  9. 深度学习model.fit计算流图
  10. pandas数据转换时遇到不能转换的数据转为NaN的参数设置errors='coerce'