datatable对两个csv的join操作

代码根据key=TransactionID来进行join操作

go.py


import datatable as dtfolder_path = './'
train_identity = dt.fread(f'{folder_path}train_identity.csv')
test_identity = dt.fread(f'{folder_path}test_identity.csv')
train_transaction = dt.fread(f'{folder_path}train_transaction.csv')
test_transaction = dt.fread(f'{folder_path}test_transaction.csv')train_identity.key = 'TransactionID'
test_identity.key = 'TransactionID'
train = train_transaction[:, :, dt.join(train_identity)]
test = test_transaction[:, :, dt.join(test_identity)]train.to_csv("train.csv")
test.to_csv("test.csv")

run method:

time python go.py

(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ time python go.py
100% |██████████████████████████████████████████████████| Writing CSV
100% |██████████████████████████████████████████████████| Writing CSVreal    0m2.058s
user    0m26.883s
sys    0m2.221s(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ ls -ltrah *csv
-rw-r--r-- 1 arno arno 744M Jul 17 14:03 train.csv
-rw-r--r-- 1 arno arno 664M Jul 17 14:03 test.csv

性能为50w数据的csv和14w数据的csv,耗时2.221s

data:

https://www.kaggle.com/c/ieee-fraud-detection/data

datatable的官方文档

https://datatable.readthedocs.io/en/latest/using-datatable.html

datatable对两个csv的join操作相关推荐

shell中join链接多个域_shell 如何实现两个表的join操作
shell 如何实现两个表的join操作今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是两个文件,但是文件是列表的形式,有固定的分割符号,即就相 ...
spark做两张大表的join操作，mapPartition和重分区算子的使用策略
Spark中做两个大hive表的join操作,先读取过来处理成两个数据量很大的RDD,如果两个RDD直接进行join操作,势必会造成shuffle等导致运行非常缓慢,那么怎么优化呢?方法如下: 首先, ...
Flink学习笔记：Operators之CoGroup及Join操作
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
hadoop中join操作
前言在mysql中,经常涉及到2张表或者多张表的关联查询,通常通过中间字段将两个表做关联,在MapReduce中,某些场景下也会遇到类似的需求,比如说,将两个原始的日志文件,通过中间业务字段进行关联 ...
MapReduce之join操作
一前言在很多时候,我们可能需要处理的不是一个单独的文件,而是几个有关联的文件,比如账户信息和订单信息=> 账户信息:customerIdname address telephone 订单信 ...
使用MapReduce实现join操作
2019独角兽企业重金招聘Python工程师标准>>> 在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现j ...
离线轻量级大数据平台Spark之JavaRDD关联join操作
对两个RDD进行关联操作,如: 1)文件post_data.txt包含:post_id\title\content 2)文件train.txt包含:dev_id\post_id\praise\time ...
Spark SQL JOIN操作代码示例
title: Spark SQL JOIN操作 date: 2021-05-08 15:53:21 tags: Spark 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建 ...
MapReduce实现join操作
前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地.今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到 ...

datatable对两个csv的join操作

datatable对两个csv的join操作相关推荐

最新文章

热门文章