代码根据key=TransactionID来进行join操作

go.py


import datatable as dtfolder_path = './'
train_identity = dt.fread(f'{folder_path}train_identity.csv')
test_identity = dt.fread(f'{folder_path}test_identity.csv')
train_transaction = dt.fread(f'{folder_path}train_transaction.csv')
test_transaction = dt.fread(f'{folder_path}test_transaction.csv')train_identity.key = 'TransactionID'
test_identity.key = 'TransactionID'
train = train_transaction[:, :, dt.join(train_identity)]
test = test_transaction[:, :, dt.join(test_identity)]train.to_csv("train.csv")
test.to_csv("test.csv")

run method:

time python go.py

(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ time python go.py
100% |██████████████████████████████████████████████████| Writing CSV
100% |██████████████████████████████████████████████████| Writing CSVreal    0m2.058s
user    0m26.883s
sys    0m2.221s(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ ls -ltrah *csv
-rw-r--r-- 1 arno arno 744M Jul 17 14:03 train.csv
-rw-r--r-- 1 arno arno 664M Jul 17 14:03 test.csv

性能为50w数据的csv和14w数据的csv,耗时2.221s

data:

https://www.kaggle.com/c/ieee-fraud-detection/data

datatable的官方文档

https://datatable.readthedocs.io/en/latest/using-datatable.html

datatable对两个csv的join操作相关推荐

  1. shell中join链接多个域_shell 如何实现两个表的join操作

    shell 如何实现两个表的join操作 今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是 两个文件,但是文件是列表的形式,有固定的分割符号,即就相 ...

  2. spark做两张大表的join操作,mapPartition和重分区算子的使用策略

    Spark中做两个大hive表的join操作,先读取过来处理成两个数据量很大的RDD,如果两个RDD直接进行join操作,势必会造成shuffle等导致运行非常缓慢,那么怎么优化呢?方法如下: 首先, ...

  3. Flink学习笔记:Operators之CoGroup及Join操作

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  4. hadoop中join操作

    前言 在mysql中,经常涉及到2张表或者多张表的关联查询,通常通过中间字段将两个表做关联,在MapReduce中,某些场景下也会遇到类似的需求,比如说,将两个原始的日志文件,通过中间业务字段进行关联 ...

  5. MapReduce之join操作

    一  前言 在很多时候,我们可能需要处理的不是一个单独的文件,而是几个有关联的文件,比如账户信息和订单信息=> 账户信息:customerIdname address telephone 订单信 ...

  6. 使用MapReduce实现join操作

    2019独角兽企业重金招聘Python工程师标准>>> 在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现j ...

  7. 离线轻量级大数据平台Spark之JavaRDD关联join操作

    对两个RDD进行关联操作,如: 1)文件post_data.txt包含:post_id\title\content 2)文件train.txt包含:dev_id\post_id\praise\time ...

  8. Spark SQL JOIN操作代码示例

    title: Spark SQL JOIN操作 date: 2021-05-08 15:53:21 tags: Spark 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建 ...

  9. MapReduce实现join操作

    前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地.今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到 ...

最新文章

  1. 动态导入ECMAScript模块一文看懂
  2. SEO优化中如何引导流量
  3. oracle object_type,Oracle TYPE OBJECT详解 | 学步园
  4. jQuery基础知识准备
  5. AngularJS 学习笔记 - $http.post 跟后台交互
  6. 1.为什么要学习MATLAB
  7. mingw编译wxwidgets
  8. 【MVC】ASP.NET MVC5 使用MiniProfiler 监控MVC性能
  9. css 竖行进度图_前端学习--汇集了大量 CSS 的使用和学习的示例代码
  10. Regular Exprassion--正则表达式基础
  11. comparator比较器用法_汽车三元催化器堵塞咋办?不拆不换,用这招清理干净、动力猛如虎...
  12. Solr学习总结(四)Solr查询参数
  13. MariaDB 安装与启动 使用MySQL
  14. 基于数码相机拍照图像分析的植被覆盖率(FVC)计算软件人品大家自己斟酌
  15. Android 更改头像(图片)并上传服务器功能Demo详解
  16. linux下的网络·环境部署
  17. Unable to start debugging.报错
  18. Python检测字符串是否只含“空白字符”
  19. NS3_Tutorial 中文版: 第一章 简介
  20. fatal error: opencv2/opencv_modules.hpp: No such file or directory(linux系统,opencv4)

热门文章

  1. 丰富自己的代码库-快速排序
  2. Javascript闭包概念剖析
  3. Vscode----热门插件超实用插件汇总(史上最全)
  4. matlab运行支持向量机不出f,求助各位大神关于libsvm,svmpredict总是出不来结果,调试了好久还是不行...
  5. idea mybatis插件_IntelliJ IDEA插件推荐(二)
  6. android ipc简单理解,Android IPC 机制【1】--简介
  7. qs.parse和qs.stringify
  8. Linux升级openssh一次成功版本
  9. JavaScript面向对象——理解构造函数继承(类继承)
  10. Windows下安装maven-nexus私服