精通数据科学

当领英发布其第三份年度新兴工作报告时 ,各地的工程师都说:“阿们”。 超过一半的清单是工程角色,并且首次出现了新的领域,例如机器人技术。

但是数据科学也有很强的表现。 该职位的年增长率为37%,连续第三年位居“新兴职位”列表的首位。

通过查看数据科学家所需的核心技能(包括R,Python和Apache Spark),很容易发现与开放源代码重叠的地方。 因此,我们对数据科学成为2019年Opensource.com上最受欢迎的话题之一并不感到惊讶。

我们看到了需要有关各种数据科学主题的知识。 我们的作者社区提供了答案。

为了您的阅读愉快,我们列出了2019年数据科学领域的前10名文章。我们将“最高”定义为2019年发布的数据科学文章,并从最受欢迎的页面开始获得了最多的页面浏览量。

无论您是要使用Kubernetes进行批处理作业还是要查询10年的GitHub数据,这些文章都将在2020年推动您的数据科学游戏。

为什么数据科学家喜欢Kubernetes

Kubernetes有一个以上的时刻。 这在很大程度上要归功于它的多功能性。 您可能已经知道Kubernetes帮助软件开发人员和系统操作员在Linux容器中部署应用程序。 但是您知道它对数据科学有多大帮助吗?

在2019年我们最受欢迎的数据科学文章《 为什么数据科学家喜欢Kubernetes 》中,William Benton和Sophie Watson分享了Kubernetes如何支持数据科学工作流程。 从可重复的批处理作业到调试ML模型,本文为数据科学家分享了几种利用Kubernetes的方法。

如何使用Spark SQL:动手教程

如何使用Spark SQL:动手教程使用Spark DataFrames展示了如何大规模使用关系数据库。 DJ Sarkar使用真实世界的数据集引导读者完成使用Spark SQL的过程。

Sarkar的教程内容丰富,包括屏幕截图和代码,是他关于该主题的第一篇文章的理想续篇。 他分享了几种使用Spark来管理从平面文件或数据库获得的结构化数据的方式。

数据科学项目的9种资源

从机器学习到神经网络,开源中数据科学的发展使得许多工程师想了解更多。 在9个用于数据科学项目的资源中 ,Dan Barker分享了他认为对于任何想入门的工程师都必须的书籍,工具和在线课程。

Barker特别热衷于Cathy O'Neil的著作《数学破坏武器》 ,该书分享了偏见如何渗入数据以及如何阻止数据。 他还分享了许多新手可以浏览的网站。

使用Python进行数据科学入门

除了数据科学技术的兴起之外,Python的地位也在飞速增长。 现在,它是最受欢迎的编程语言之一。 当与pandas和Seaborn之类的库一起使用时,Python是数据科学的理想入门。

塞思·肯隆(Seth Kenlon)在他的Python入门文章的后续文章《 使用Python进行数据科学入门 》中,分享了如何创建Python虚拟环境。 安装熊猫和NumPy; 创建样本数据集; 以及更多。 如果您想了解有关数据可视化的更多信息,那么这篇文章特别有用。

如何使用Python和Apache Spark分析日志数据

就像我们前十名中的许多文章一样,《 如何使用Python和Apache Spark分析日志数据》是之前有关使用Python和Apache Spark纠缠数据的文章的续篇。 一旦您了解了如何将数据转换为干净的结构化格式,DJ Sarkar就会提供帮助您分析数据的内容。

无论您是要查看前10个错误端点还是内容大小统计信息,Sarkar都会向您展示如何分析DataFrame中的几种日志数据类型。 从大小或卷的角度来看,他使用的数据不是“大数据”。 但是这些技术可以扩展以用于更大的数据集。

如何使用Python和Apache Spark处理日志数据

DJ Sarkar关于分析日志数据的文章的前传, 如何使用Python和Apache Spark处理日志数据,也进入了我们的前十名。 毫不奇怪,因为大多数组织都使用一系列不断运行的系统和基础架构。 数据日志是确保所有内容均有效运行的理想方法。

在本教程中,Sarkar显示了如何在来自NASA的真实生产日志中使用Apache Spark。 他逐步介绍了使用Spark对半结构化日志数据进行大规模日志分析的过程。 从设置依赖项到数据整理,范围广泛。

使用GHTorrent和Libraries.io查询十年的GitHub数据

您是否知道可以使用Kibana或Elasticsearch API将Amazon S3对象存储数据转换为可搜索的Elasticsearch型集群? 同样,您是否了解旨在构建可通过GitHub API获得的所有数据的脱机版本的项目?

使用GHTorrent和Libraries.io查询GitHub十年数据时 ,Pete Cheslock探索了如何访问和查询GHTorrent数据。 您可以使用多种格式来做到这一点,包括CSV和Google Big Query。 Cheslock使用后者搜索索引的GHTorrent数据,以了解GitHub项目中最受欢迎的软件语言,许可证和增长率。

使用Python和数据科学预测NFL比赛结果

是否想提高您在Python中的机器学习技能? 随着NFL季后赛的到来,现在是阅读Python和数据科学预测NFL比赛结果的好时机,它分享了一些数据科学技巧来预测比赛。

Christa Hayes展示了如何发现怪异的值,预测跌落和比赛类型,制作回归图以及训练模型。 阅读完她关于如何格式化数据进行训练的文章后 ,这是下一步的理想选择。

使用Python和Pandas分析堆栈溢出调查

Stack Overflow的年度开发人员调查是一个技术庞然大物。 今年有近90,000名开发人员参加了为期20分钟的调查,留下了大量数据。

为了找到某些结果,Moshe Zadka使用熊猫库搜索了调查的匿名结果 。 如果要过滤某些特定细节的Stack Overflow数据集(例如查看有多少开发人员使用某些语言或为开源项目做出贡献),Moshe的“使用Python和Pandas分析Stack Overflow调查”教程将向您展示如何。

4个天文学入门Python工具

对于头脑风暴的读者,NumFOCUS今年在Opensource.com上重新发布了一些博客文章。 在用于天文学入门的4种Python工具中 ,Gina Helfrich博士分享了如何参与天文学。

吓到了吗 别这样:Helfrich博士说Python软件包是如此先进,以至于构建数据缩减脚本比以往任何时候都容易得多。 如果您想使用天文学影像数据集,这部分内容将引导您朝着正确的方向发展。

您想了解什么数据科学?

数据科学是一个令人兴奋的领域,需要探索的事物无数。 如果您想了解一些有关数据科学的知识,请在评论中告诉我们,以便我们能够在2020年涵盖它。或者,如果您愿意,请通过提交文章与Opensource.com读者分享您的知识。关于您最喜欢的数据科学主题。

翻译自: https://opensource.com/article/19/12/data-science-resources

精通数据科学

精通数据科学_10篇文章变得更加精通数据科学相关推荐

  1. 数据工程 数据科学_10篇关于数据科学和数据工程的伟大文章

    数据工程 数据科学 数据科学和程序设计是一个快速发展的专业,很难跟上Google,Uber,Netflix和一位工程师的所有文章. 过去几周我们一直在阅读一些内容,并希望在2019年4月这一周分享一些 ...

  2. 搞懂大数据,这篇文章一定要细细品读! 大数据

    导读:文章用一个个生动的例子深入浅出的讲述了大数据,并大胆的描绘了大数据未来的应用场景. 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面 ...

  3. 读懂大数据,这篇文章一定要细细品读!

    似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇. 首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球 ...

  4. 苹果机器学习博客姗姗来迟,不过第一篇文章就给紧缺训练数据的研究者们发糖...

    雷锋网(公众号:雷锋网) AI 科技评论按:苹果一出手就要解决人工智能的瓶颈问题,野心不可谓不大,但是效果也不可谓不好,最近的一篇机器学习方面的论文就巧妙地解决了训练数据收集方面的大问题,不仅已经被C ...

  5. python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

  6. python爬虫:爬取某图外卖数据有这篇文章就够了

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

  7. 如何使用 SQL Server FILESTREAM 存储非结构化数据?这篇文章告诉你!

    作者 | ALEN İBRIÇ 译者 | 火火酱,责编 | Carol 封图 | CSDN 付费下载于视觉中国 在本文中,我将解释如何使用SQL Server FILESTREAM来存储非结构化数据. ...

  8. 再见,汉斯·罗斯林,你用数据让宏大的问题变有趣 | 好奇心小数据

    点击上方蓝字"神策分析",关注有价值的数据分析干货. 本文作者为温欣语,原文源自好奇心日报,已获得转载授权. "你觉得数据无聊是因为这不是你想知道的,或者说你并没有意识到 ...

  9. 2016年研究数据可视化最不应该错过的10篇文章

    2016年是数据可视化渐趋成熟的一年,越来越多的领域开始认识到数据可视化的重要性.同样在这一年,涌现出了大量关于数据可视化的文章,其中不乏富有创见性的观点和研究.我们选出了以下10篇最具启发性的文章, ...

最新文章

  1. Linear and Discrete Optimization - Week 1
  2. Java怎么xml拒绝,Sun Java运行时环境XML解析拒绝服务漏洞
  3. 思科透露其“星舰”计划 旨在主导云服务器自动化领域
  4. cocos2d-x初探学习笔记(4)--触屏事件
  5. Spring Cloud Feign 负载均衡
  6. php 指定时间之前,php计算给定时间之前的函数用法实例
  7. winXP 下安装python3.3.2
  8. Scala学习--《Scala编程》
  9. 1z0_031 视频课程随记
  10. python自动化办公模块有哪些-Python自动化办公知识点整理汇总
  11. 语音转写可实时,直播也能同步字幕
  12. 【干货】前端开发者最常用的六款IDE
  13. win7系统怎么查看电脑配置,win7电脑系统配置查看
  14. 常见生态问题成因及措施
  15. Android WebView简要介绍和学习计划
  16. 快速原型设计工具(Axure)的简单使用
  17. android socket 推送服务版本
  18. 国科大学习资料--最优化计算方法(王晓)--第六次作业答案
  19. C语言C++情人节红玫瑰代码
  20. CTF CRYPTO 从零开始的RSA1

热门文章

  1. springboot使用curator实现服务的注册和发现
  2. 讲讲你理解的服务治理
  3. springbatch开启任务的两种方式
  4. python入门系列:函数
  5. 【332】Machine Learning
  6. 51Nod 1091 线段的重叠(贪心+区间相关,板子题)
  7. centos 6.7 安装 最新版 git
  8. [总结]FFMPEG视音频编解码零基础学习方法--转
  9. EIGRP and the OSPF redistribute
  10. type或者xtype总结