我正在解决一个数据集大于内存的问题。

原始数据集是一个.csv文件。

其中一列是musicbrainz服务的曲目id。在

我已经做了什么

我用dask读取.csv文件,并在磁盘上将其转换为castra格式以获得更高的性能。

我还查询了musicbrainzapi并使用peewee填充了一个sqlite数据库,并给出了一些相关的结果。我选择使用一个数据库而不是另一个数据帧因为这个过程花了几天时间,我不想在任何失败的情况下丢失数据。在

我还没有真正开始分析数据。在重新整理数据的过程中,我设法弄得一团糟。在

当前的问题

我很难将列从sqldb连接到dask/castra数据帧。实际上,我不确定这是否可行。在

替代方法

看来我在为这项任务选择最好的工具时犯了一些错误。卡斯特拉可能还不够成熟,我认为这是问题的一部分。

另外,选择SQLAlchemy来支持peewee可能更好,因为pandas和peewee都没有使用它。在

Blaze+HDF5可能是dask+castra的不错的替代品,主要是因为HDF5比castra更稳定/成熟/完整,blaze在数据存储方面没有那么固执己见。例如。

它可以简化SQL数据库与主数据集的连接。在

另一方面,我熟悉pandas和dask公开了“相同”的API。使用dask,我也获得了并行性。在

TL;DR

我有一个大于内存的数据集+sqlite数据库,我需要将其加入主数据集。

我怀疑是否要与dask+castra合作(不知道其他相关的数据存储数据帧),并使用SQLAlchemy一次将部分SQL数据库加载到pandas的数据帧中。我认为最好的选择是改用blaze+HDF5。

在这种情况下你有什么建议?在

欢迎任何其他选择/意见。

我希望这足够具体。在

python数据分析用什么框架_用python选择用于内存大的数据分析的框架相关推荐

  1. java 爬虫框架_不知道Python爬虫?这篇文章丢给他(内含框架结构)

    前言 爬虫即网络爬虫,英文是Web Spider.翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来. 我们在浏览器中输入一个网 ...

  2. python 离散数据时间序列图_每个人都学的会的数据分析

    数据分析已经成为数据时代各行各业突破各自行业发展瓶颈的最有效手段,无论是公司职员还是个体商户或大公司管理者,都需要有数据分析的能力.很多人认为数据分析能力就是对数据进行描述和做出漂亮的统计图形的能力, ...

  3. python与其他的数据分析有什么区别_学好python和数据分析有什么关系?

    1. 应用数学.统计学.金融学等相关专业,硕士及以上学历. 2. 有良好的产品Sense和商业敏感度,有2年以上电商.物流.零售等数据分析经验. 3. 精通SQL,有一定的Python或者R编程能力, ...

  4. python爬虫可视化web展示_基于Python爬虫的职位信息数据分析和可视化系统实现

    1. 引言 在这个新时代,人们根据现有的职位信息数据分析系统得到的职位信息越来越碎片化,面对收集到的大量的职位信息数据难以迅速地筛选出对自己最有帮助的职位信息,又或者筛选出信息后不能直观地看到数据的特 ...

  5. pytest测试框架_聊聊 Python 的单元测试框架(三):最火的 pytest

    本文首发于 HelloGitHub 公众号,并发表于 Prodesire 博客. 一.介绍 本篇文章是<聊聊 Python 的单元测试框架>的第三篇,前两篇分别介绍了标准库 unittes ...

  6. python分析工具有哪些_常用Python数据分析工具汇总

    Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数 ...

  7. python 自动化框架_学会Python+Selenium,分分钟搭建Web自动化框架!

    用python+selenium实现UI自动化测试,要有一些HTML和xpth的基础,当然python基础一定是必须要会的.笔者建议花点时间了解下相关基础知识,不至于后面发懵. 一.什么是seleni ...

  8. python制作物联网控制软件下载_基于Python和Django框架的物联网智能设备管理系统的设计与实现...

    论文写作指导:请加QQ229366758 基于Python和Django框架的物联网智能设备管理系统的设计与实现 作者:未知 摘 要:针对目前日益增多的智能设备提出了兼容性好,稳定性高,易于管理的管理 ...

  9. python在数据分析的应用条件_用python进入数据分析世界

    工欲善其事,必先利其器.数据行业常用的两种工具分别是python和R,作为初学者,python更加容易上手也是市面上很多人和程序员的选择.so, why not? 安装环境 数据分析其实也是一项工程任 ...

  10. python交互式和文件式_使用Python创建和自动化交互式仪表盘

    python交互式和文件式 In this tutorial, I will be creating an automated, interactive dashboard of Texas COVI ...

最新文章

  1. BZOJ 2326 数学作业(分段矩阵快速幂)
  2. 开启mysql慢查询日志,不重启数据库的方法
  3. [转载] Python3.X 线程中信号量的使用方法示例
  4. python实时策略_Python策略模式
  5. 美司法部揭秘俄黑客窃取雅虎5亿帐户资料全过程
  6. Wordpress 2.91 的一些良好改进
  7. DB2with的定义与用法
  8. java uuid 随机生成唯一序列号
  9. PLSQL导入导出表的正确步骤
  10. python可以做微信小游戏吗_python可以写微信小游戏吗
  11. ambari登录页面打不开,报错:postgresql ...... Check that the hostname and port are correct......
  12. python从0到1_从0到1的Python学习经验
  13. 2019年2月18日,异常作业
  14. 2020年三井化学触媒科学奖
  15. Python中冷门但非常好用的内置函数
  16. 千兆以太网和快速以太网有什么区别?
  17. 保存tensor至本地文件
  18. 毕业设计 stm32酒驾检测系统 - 单片机 嵌入式 物联网
  19. synchronized锁(方法锁, 代码块锁)
  20. python安装其他版本时出现0x80070666

热门文章

  1. self-sizing cell的一个问题
  2. ls在系统中常用的选项与用法
  3. 【BZOJ1500】[NOI2005]维修数列
  4. NETSCREEN用L2TP方式建立×××
  5. SpringCloud学习(SPRINGCLOUD微服务实战)一
  6. 解决 ThinkPad x270 安装 ubuntu 14.04 后的网络问题
  7. python 重新执行循环中出错的那一次
  8. 清除数据库中大于10W行的垃圾历史数据
  9. sql server cross/outer apply 用法
  10. 在 lamp(centos)下配置二级 域名 、虚拟主机