datatable对两个csv的join操作
代码根据key=TransactionID来进行join操作
go.py
import datatable as dtfolder_path = './'
train_identity = dt.fread(f'{folder_path}train_identity.csv')
test_identity = dt.fread(f'{folder_path}test_identity.csv')
train_transaction = dt.fread(f'{folder_path}train_transaction.csv')
test_transaction = dt.fread(f'{folder_path}test_transaction.csv')train_identity.key = 'TransactionID'
test_identity.key = 'TransactionID'
train = train_transaction[:, :, dt.join(train_identity)]
test = test_transaction[:, :, dt.join(test_identity)]train.to_csv("train.csv")
test.to_csv("test.csv")
run method:
time python go.py
(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ time python go.py
100% |██████████████████████████████████████████████████| Writing CSV
100% |██████████████████████████████████████████████████| Writing CSVreal 0m2.058s
user 0m26.883s
sys 0m2.221s(env) arno@mr-dli1:~/kaggle/ieee/scripts(master)$ ls -ltrah *csv
-rw-r--r-- 1 arno arno 744M Jul 17 14:03 train.csv
-rw-r--r-- 1 arno arno 664M Jul 17 14:03 test.csv
性能为50w数据的csv和14w数据的csv,耗时2.221s
data:
https://www.kaggle.com/c/ieee-fraud-detection/data
datatable的官方文档
https://datatable.readthedocs.io/en/latest/using-datatable.html
datatable对两个csv的join操作相关推荐
- shell中join链接多个域_shell 如何实现两个表的join操作
shell 如何实现两个表的join操作 今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是 两个文件,但是文件是列表的形式,有固定的分割符号,即就相 ...
- spark做两张大表的join操作,mapPartition和重分区算子的使用策略
Spark中做两个大hive表的join操作,先读取过来处理成两个数据量很大的RDD,如果两个RDD直接进行join操作,势必会造成shuffle等导致运行非常缓慢,那么怎么优化呢?方法如下: 首先, ...
- Flink学习笔记:Operators之CoGroup及Join操作
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
- hadoop中join操作
前言 在mysql中,经常涉及到2张表或者多张表的关联查询,通常通过中间字段将两个表做关联,在MapReduce中,某些场景下也会遇到类似的需求,比如说,将两个原始的日志文件,通过中间业务字段进行关联 ...
- MapReduce之join操作
一 前言 在很多时候,我们可能需要处理的不是一个单独的文件,而是几个有关联的文件,比如账户信息和订单信息=> 账户信息:customerIdname address telephone 订单信 ...
- 使用MapReduce实现join操作
2019独角兽企业重金招聘Python工程师标准>>> 在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现j ...
- 离线轻量级大数据平台Spark之JavaRDD关联join操作
对两个RDD进行关联操作,如: 1)文件post_data.txt包含:post_id\title\content 2)文件train.txt包含:dev_id\post_id\praise\time ...
- Spark SQL JOIN操作代码示例
title: Spark SQL JOIN操作 date: 2021-05-08 15:53:21 tags: Spark 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建 ...
- MapReduce实现join操作
前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地.今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到 ...
最新文章
- 动态导入ECMAScript模块一文看懂
- SEO优化中如何引导流量
- oracle object_type,Oracle TYPE OBJECT详解 | 学步园
- jQuery基础知识准备
- AngularJS 学习笔记 - $http.post 跟后台交互
- 1.为什么要学习MATLAB
- mingw编译wxwidgets
- 【MVC】ASP.NET MVC5 使用MiniProfiler 监控MVC性能
- css 竖行进度图_前端学习--汇集了大量 CSS 的使用和学习的示例代码
- Regular Exprassion--正则表达式基础
- comparator比较器用法_汽车三元催化器堵塞咋办?不拆不换,用这招清理干净、动力猛如虎...
- Solr学习总结(四)Solr查询参数
- MariaDB 安装与启动 使用MySQL
- 基于数码相机拍照图像分析的植被覆盖率(FVC)计算软件人品大家自己斟酌
- Android 更改头像(图片)并上传服务器功能Demo详解
- linux下的网络·环境部署
- Unable to start debugging.报错
- Python检测字符串是否只含“空白字符”
- NS3_Tutorial 中文版: 第一章 简介
- fatal error: opencv2/opencv_modules.hpp: No such file or directory(linux系统,opencv4)
热门文章
- 丰富自己的代码库-快速排序
- Javascript闭包概念剖析
- Vscode----热门插件超实用插件汇总(史上最全)
- matlab运行支持向量机不出f,求助各位大神关于libsvm,svmpredict总是出不来结果,调试了好久还是不行...
- idea mybatis插件_IntelliJ IDEA插件推荐(二)
- android ipc简单理解,Android IPC 机制【1】--简介
- qs.parse和qs.stringify
- Linux升级openssh一次成功版本
- JavaScript面向对象——理解构造函数继承(类继承)
- Windows下安装maven-nexus私服