作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

在tidyfst中,csv文件的读写依赖于data.table直接提供的fread函数,而pandas中则是利用了其自带的read_csv函数。现在比较一下两者对于项目https://github.com/yeayee/joyful-pandas中data文件夹下UFO.csv(3.8M)的运行时间(各运行100次取平均值)。

Python代码:

import timeit as timeit
code_to_test = """
import pandas as pd
df = pd.read_csv("data/UFO.csv")
"""
elapsed_time = timeit.timeit(code_to_test, number=100)/100
print(elapsed_time)

每次运行约花销0.078s。

R代码(观察mean这一项):

library(tidyfst)res = microbenchmark::microbenchmark({library(tidyfst)fread("data/UFO.csv")} ,times = 100,unit = "s"
)

每次运行约花销0.020s。

结论:就数据导入而言,pandas速度不及tidyfst,data.table比较厉害。如果数据量级变大,这个差距可能会更加明显。


由于测试的时候是另外创建环境,因此加载包的时间也要算进去。但是其实它们是微不足道的,我们可以进行一个小的补充测试(分别注释掉文件读取的代码):

Python:

R:

我们比较的量级在1e-3左右,而加载包的时间量级在1e-5甚至更小。


吐槽:Python的帮助文档真的是一般,找一个测时间的函数找了半天也没有找到比较好的,R中无论bench包还是microbenchmark包都远远超越于此。如果有朋友知道python中更好的测时间的方法,敬请告知。

r语言读取csv文件赋值gamma_tidyfst vs pandas(1):csv文件读写相关推荐

  1. R语言 读取csv文件 有关无法打开表格以及表格位置不对问题【已解决】

    因为概率模型课程,刚开始用到R语言,遇到些问题,现已解决 问题1:  R语言读取并导入csv文件时打不出表格 解决: 首先用getwd()获取R当前所在的工作目录,将csv文件与R的code文件放在同 ...

  2. R语言读取csv文件,第一列列名出现乱码的解决方法

    在利用R语言读取csv文件时,第一列列名总是出现乱码,代码如下: setwd("E:\2.Model\4. Simulation") #设定文件路径 All.Soils = rea ...

  3. R语言读取csv文件,第一列列名出现乱码怎么办

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/weixin_45075290/art ...

  4. r语言读取excel数据_R语言 | 更快的表格文件读取方法!

    友情提示:蓝色下划线字体为引文,请保持警惕! 使用R语言读取 Affymetrix Human Exon 1.0 ST Array 芯片平台探针注释文件: https://www.affymetrix ...

  5. 初学者使用R语言读取excel/csv/txt的注意事项

    本文首发于:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 把数据读入R语言 Excel csv txt 其他 写出文件(从R语言另存为其他格式) 本文面向R语言初学者,尤其是生物医药领域 ...

  6. R语言读取xlsx文件

    R语言读取csv文件 关于R语言读取Excel文件,比较麻烦,我从来都反对直接读取xlsx文件,因为爬虫数据时,一般保存的格式都是csv文件,或者直接保存到数据库里面,没有谁会保存到Excel文件里面 ...

  7. R语言|1.4 R语言读取数据(csv,txt,xlsx)

    R语言|1.4 R语言读取数据(csv,txt,xlsx) 1.4.1获取R的内置数据集 1.4.2模拟特定分布数据 1.4.3导入数据 1)导入txt与csv 2)导入xls与xlsx 1.4.1获 ...

  8. R语言读取excel文件实战(read.xlsx函数、read_excel函数、read.xlsx函数、Write函数)

    R语言读取excel文件实战(read.xlsx函数.read_excel函数.read.xlsx函数.Write函数) 目录 R语言读取excel文件实战(read.xlsx函数.read_exce ...

  9. R语言读取CSV,删除重复行,进行数据分析

    R语言读取CSV,将csv数据中的重复值进行统计,统计之后删除重复内容,只保留第一次出现的值. rm(list = ls()) library(ggplot2) library(dplyr)Rstar ...

最新文章

  1. 打开,保存文件框的文本溢出排查
  2. “蚁人”不再是科幻!MIT最新研究,能把任何材料物体缩小1000倍 | Science
  3. 解决Tomcat下源服务器未能找到目标资源的表示或者是不愿公开一个已经存在的资源表示
  4. Stanford概率图模型: 第一讲 有向图-贝叶斯网络
  5. 告别 ROR windows 部署的噩梦-在 windows 上面 使用 Apache 部署 Ruby On Rails
  6. 百度地图API--百度地图底色选择
  7. MySQL存储引擎及InnoDB并发控制介绍
  8. Android Studio和Kotlin入门
  9. ASP.NET 缓存(10)
  10. java基础(七)--- set
  11. Objective-C和C++语法比较
  12. 迷宫算法,求解所有路径(DFS),(bug找了好久 )
  13. Google地图坐标拾取器,地图选点,获取经纬度
  14. 浏览器主页被hao123劫持之解决方案
  15. 如何使用Mezzanine
  16. 词频分析(Python脚本)
  17. android obb在哪,安卓手机如何打开.obb文件?
  18. LazyAn-—《合成大西瓜》怎么做?原版游戏还原
  19. For queries with named parameters you need to use provide names for method parameters. Use @Param fo
  20. PS学习-风光照片综合处理(二)--湛蓝雪山

热门文章

  1. Objective-C中的Category
  2. 2019/5/12 查漏补缺
  3. 自己整理的shell笔记
  4. rocketMq-producer介绍
  5. 在虚拟机上linux系统上上网
  6. php实战第二十一天
  7. 安装Mysql提示1045错误解决方法
  8. DNS MX记录一定要放在A记录之前
  9. atoi,atol,strtod,atof
  10. Python爬虫入门:爬取某个网页的小说内容