「数据科学」数据科学家为什么该学习PostgreSQL
SQL是成为数据科学家的必要条件吗?答案是肯定的。数据科学已经发展了,虽然许多数据科学家仍然使用CSV文件(值以逗号分隔的文本文件),但它们不是最好的选择。Python Panda库允许从CSV文件加载数据,但是这些文件有许多约束。例如,它们通常不连接到数据库,这就要求您在每次更新数据时生成一个新的CSV文件提取。在大数据时代,这是完全不切实际的。
关系数据库为使用大数据存储库提供所需的支持和敏捷性。PostgreSQL是领先的关系数据库管理系统之一。专为处理大型数据集而设计的Postgres是数据科学的完美匹配。在本文中,我们将介绍在数据科学中使用Postgres的优点和缺点。
什么是数据科学家?
数据科学是近年来最受欢迎的职业选择之一。随着组织管理着巨大的数据集,对能够从中提取有价值信息的专家的需求也在增加。
数据科学家处理大数据,帮助组织从数据中获得可操作的见解。例如,他们可以发现一个市场利基,或者根据最新的市场趋势改进公司的产品。
数据科学的领域和它所操作的数据一样多样化,但有一些核心技能是每个数据科学家都应该具备的。
编程技能:数据科学家使用编码来分析和处理信息,所以有很强的编程技能是很重要的。数据库和统计编程语言,如SQL或R,是必须的。数据科学家了解的编程语言越多,可以应用的工具越多,效果就越好。
统计和数学技能:数据科学需要处理统计数据。您需要正确的算法从数据集提取您想知道的内容。要做到这一点,数据科学家需要对统计学和数学概念有很强的掌握。
技术技能是必须的。然而,数据科学家也需要软技能,比如决心、对细节的关注和分析能力。在数据科学领域工作的两个基本技能是好奇心和灵活性。例如,数据科学家经常需要为数据问题提出开箱即用的算法。
PostgreSQL是什么?
关系数据库管理系统(RDBMS)。这个开源平台是由PostgreSQL全球开发小组开发的,该小组由公司和个人贡献者组成。它得到了广泛的软件即服务(SaaS)解决方案市场的支持,这些解决方案用于在云中和本地运行Postgres。
PostgresSQL的主要功能包括:
免费许可:该平台可以免费下载、使用、扩展和分发。
复杂查询支持:Postgres的基本特性之一是处理复杂查询的能力。复杂查询是从数据库发出的请求,超出了SELECT和WHERE等基本SQL请求的范围。
多版本并发控制:该特性允许不同的用户同时对数据库进行读写操作。
用户定义类型:用户可以自定义函数来定义单个数据类型。数据科学家使用已知或未知的数据。将两种或三种数据类型组合成一种新的数据类型,可以帮助数据科学家解决来自不同来源的大量数据的复杂问题。
高度符合SQL ISO/ iec9075标准:PostgreSQL满足164个强制特性中的150个,完全符合标准要求。从一开始,遵从SQL标准就一直是Postgres的优先事项。
强大的社区支持:Postgres拥有一个庞大的贡献者社区,他们致力于扩展和开发这个平台。有广泛的支持文档和论坛。
编程语言支持:PostgresSQL支持所有主要的编程语言,如Python、C和Java。它还通过JSON支持NoSQL查询。
多环境支持:PostgreSQL的特点之一是支持
云计算和本地环境。这称为多环境或跨环境支持。RightScale最近的一份报告显示,大多数使用Postgres的组织选择了一种混合的云环境,即内部配置和云系统的混合。
Postgres对数据科学的利弊
PostgresSQL支持大数据,为文档添加了JSON-B,为地理定位系统添加了PostGIS。它允许用户根据自己的工作负载调整平台。
该平台在混合事务/分析处理(HTAP)中结合了数据分析和事务功能。该特性使数据库能够同时执行在线分析处理(OLAP)和在线事务处理(OLTP)。例如,组织可以使用Postgres中的HTAP技术来管理来自物联网设备和其他操作应用程序的信息。
由于Postgres的灵活性和可扩展性,它在数据科学家中非常流行。但是,它不将数据存储在列中,这使得大型数据仓库很难处理这些数据。
在数据科学中使用PostgresSQL有利有弊。以下是一些优点和缺点:
优点
SQL Rich:由于强调SQL标准遵从性,所以Postgres支持很多SQL语法。这包括公共表表达式、表继承和Windows函数。
非结构化数据支持:Postgres支持NoSQL数据,如XML、JSON和HStore。
并行查询:该特性允许同时运行处理器中的所有核心。这在数据科学中尤其重要,因为在数据科学中经常运行一个通用查询。
声明式分区:该功能可以指定如何将表划分为称为分区的部分。例如,当处理地理上分布的大型研究数据集时,这使您能够为每个区号分离不同的分区。
缺点
没有压缩:没有足够的空间会限制某些分析的性能。压缩数据有助于避免在向云中上传数据时形成瓶颈。PostgreSQL不提供数据压缩,这使得上传数据的速度慢得多。
无列:分析数据库通常以列而不是行存储数据。Postgres缺少列状表,这使得数据难以摄取。例如,如果您有一个包含300列的表,那么您需要将它分成两个或更多的表来读取它。
没有内置机器学习:这可能是最大的缺点,因为机器学习对于处理大数据至关重要。机器学习需要自己处理大量的数据来进行学习,而这种内置的特性可以帮助数据科学以一种高效的方式处理巨大的数据集,即使有人工干预,也是最少的。您可以添加Apache MADLib,这是一个用于机器学习的开源数据库算法库,但遗憾的是,它不能在Windows上运行。幸运的是,您可以通过使用一个sci-kit-learn库安装PLP/Python来克服这个挑战,从而直接在Postgres中编写您自己的机器学习算法。
你可以在哪里学习基础?
要学习PostgreSQL,您应该从SQL基础知识开始。这将为您构建PostgreSQL知识提供一个坚实的基础。你可以从免费的教程中学习,比如Codecademy。一旦您掌握了SQL的基础知识,您就可以开始学习如何将它与Postgres一起使用。
虽然从文档中学习可能是最彻底的方法,但也可能很乏味。网上有许多免费和付费的PostgreSQL课程。其中包括:
PostgreSQL Tutorial: :这个免费的教程涵盖了Postgres的基础知识,包括基本的功能。
Postgres Video Course::这个免费视频课程使用Postgres来教初学者SQL的基础。
Postgres Administration Essentials:这个全面的培训面向数据库管理员和架构师。虽然课程本身是免费的,但该项目需要订阅。
Postgres for Data Engineers: 这个付费课程是为数据工程师准备的,用数据科学的例子和案例涵盖了Postgres的基础知识。
总结
PostgreSQL为数据科学提供了一种低成本、功能强大的处理解决方案。最大的问题是它不提供数据压缩。您可以通过批量上传或仅在云环境中运行数据库来解决这个问题。
尽管如此,一个刚起步的数据科学家还是应该认真考虑学习PostgreSQL。Postgres可以帮助您准备使用大多数数据科学工具,成为掌握数据库知识的瑞士军刀。
首席点评
基于数据库的机器学习技术在将来将成为主流,因为数据库技术简单并且有广泛的使用基础,Apache 有开源项目Madlib 就是一个基于SQL的大数据机器学习项目,支持Postgresql和GreemPlum.
本文 | http://jiagoushi.pro/why-you-should-learn-postgresql-data-science | |
讨论:知识星球【首席架构师圈】或者加微信小号【cea_csa_cto】或者加QQ群【792862318】 | ||
公众号 |
【jiagoushipro】 【超级架构师】 精彩图文详解架构方法论,架构实践,技术原理,技术趋势。 我们在等你,赶快扫描关注吧。 |
|
微信小号 |
【cea_csa_cto】 50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化. |
|
QQ群 |
【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。 加QQ群,有珍贵的报告和干货资料分享。 |
|
视频号 |
【超级架构师】 1分钟快速了解架构相关的基本概念,模型,方法,经验。 每天1分钟,架构心中熟。 |
|
知识星球 | 向大咖提问,近距离接触,或者获得私密资料分享。 | 知识星球【首席架构师圈】 |
喜马拉雅 | 路上或者车上了解最新黑科技资讯,架构心得。 | 【智能时刻,架构君和你聊黑科技】 |
知识星球 | 认识更多朋友,职场和技术闲聊。 | 知识星球【职场和技术】 |
微博 | 【智能时刻】 | 智能时刻 |
哔哩哔哩 | 【超级架构师】 | |
抖音 | 【cea_csa_cto】超级架构师 | |
快手 | 【cea_csa_cto】超级架构师 | |
小红书 | 【cea_csa_cto】超级架构师 | 首席架构师智库 |
谢谢大家关注,转发,点赞和点在看。
「数据科学」数据科学家为什么该学习PostgreSQL相关推荐
- 大数据数据科学家常用面试题_面试有关数据科学,数据理解和准备的问答
大数据数据科学家常用面试题 问题1:在数据科学术语中,您如何称呼所分析的数据? (Q1: In the data science terminology, how do you call the da ...
- 独家 | 展望未来:数据科学、数据工程及技术(附链接)
作者:SeattleDataGuy (Zack Shapiro)翻译:殷之涵 校对:欧阳锦本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数 ...
- 读书笔记数据科学入门————数据科学导论
数据科学导论 数据的用处:在数据中寻找隐藏问题的答案 数据科学是什么:就是从数据中剥离出真理. 在实际生活中数据的重要性,例如Facebook上的家乡居住地信息,不仅可以帮助朋友找到你的位置,同时网站 ...
- 【数据科学】数据科学家犯下的13个常见错误以及如何避免这些错误
介绍 所以你已经决定数据科学是适合你的领域.越来越多的企业正在变得数据化,世界变得越来越紧密,看起来每个企业都需要数据科学实践.因此,对数据科学家的需求是巨大的.更好的是,每个人都承认行业人才短缺. ...
- 「数据仓库架构」数据建模:星型模式
数据建模是现代数据工作流中的一个关键步骤,其目的是将原始数据组织成方便.高效的形式.如果一个可用的数据集易于访问,数据分析师和科学家将发现他们的工作更加容易.更快的分析和预测将导致更快的商业决策洞察力 ...
- 「数据架构」数据架构的未来
安东尼J.阿尔格明认为,数据架构正从一个混乱和纠结的时代进入一个更加干净和有组织的时代.在DATAVERSITY®数据体系结构在线会议上,Algmin回顾了过去的预测.当前的热门话题以及对未来的预测. ...
- 「机器学习速成」数据预处理,特征工程,良好特征的特点
https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...
- service数据保存_「数据架构」数据流程图与实例-客户服务系统
数据流图(DFD)提供了系统内信息流(即数据流)的可视化表示.通过创建一个数据流图,您可以告诉参与系统流程的人员所提供和交付的信息.完成流程所需的信息以及需要存储和访问的信息.数据流图在软件工程中得到 ...
- java中审核订单流程图_「数据架构」数据流程图:实例-订餐系统
数据流图(DFD)提供了系统内信息流(即数据流)的可视化表示.通过绘制数据流程图,您可以了解由参与系统流程的人员提供并交付给他们的信息.完成流程所需的信息以及需要存储和访问的信息.本文以一个订餐系统为 ...
最新文章
- html制作水晶状态导航栏,HTML5 CSS3水晶风格的页面头部
- 实验7.3 字符串 7-8 删除重复字符
- ES6_Set和WeakSet_note
- HBase之Region上Spilt流程分析
- HTML 5 aside 标签
- AES加密,解决了同步问题,和随机密钥和固定密钥,多端通信加密不一致解决办法...
- JavaScript(二)数据类型
- python缓存memoryerror_Python安装会抛出大量MemoryError()的
- 替罪羊树+3369 【模板】普通平衡树
- js判断字符在另一个字符串中出现次数
- linux chmod 777 r,chmod -R 777 的3种补救办法,附有linux chmod命令语法和结构详解
- python爬虫之数据提取Xpath(爬取起点中文网案例)
- MyBatis官方文档
- Doxygen + Graphviz 安装(windows 10系统)
- 一份完整的app产品运营推广方案,app推广运营的方法(二
- 中国的美女为什么这样少的原因
- 华为HCIP RS题库221 451-460题
- html+css+js 简易笔记
- 关于裁判文书网的一些建议
- mysql数据库名称中包含短横线的对应方式