【转载】探寻C++最快的读取文件的方案
原文地址:https://www.byvoid.com/blog/fast-readfile/
在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中很不错,但具体如何从没试过,因此今天就索性把能想到的所有的读数据的方式都测试了一边,结果是惊人的。
竞赛中读数据的情况最多的莫过于读一大堆整数了,于是我写了一个程序,生成一千万个随机数到data.txt中,一共55MB。然后我写了个程序主干计算运行时间,代码如下:
#include <ctime> int main() {int start = clock();//DO SOMETHINGprintf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC); }
最简单的方法就算写一个循环scanf了,代码如下:
const int MAXN = 10000000;int numbers[MAXN];void scanf_read() {freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)scanf("%d",&numbers[i]); }
可是效率如何呢?在我的电脑Linux平台上测试结果为2.01秒。接下来是cin,代码如下
const int MAXN = 10000000;int numbers[MAXN];void cin_read() {freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)std::cin >> numbers[i]; }
出乎我的意料,cin仅仅用了6.38秒,比我想象的要快。cin慢是有原因的,其实默认的时候,cin与stdin总是保持同步的,也就是说这两种方法可以混用,而不必担心文件指针混乱,同时cout和stdout也一样,两者混用不会输出顺序错乱。正因为这个兼容性的特性,导致cin有许多额外的开销,如何禁用这个特性呢?只需一个语句std::ios::sync_with_stdio(false);,这样就可以取消cin于stdin的同步了。程序如下:
const int MAXN = 10000000;int numbers[MAXN];void cin_read_nosync() {freopen("data.txt","r",stdin);std::ios::sync_with_stdio(false);for (int i=0;i<MAXN;i++)std::cin >> numbers[i]; }
取消同步后效率究竟如何?经测试运行时间锐减到了2.05秒,与scanf效率相差无几了!有了这个以后可以放心使用cin和cout了。
接下来让我们测试一下读入整个文件再处理的方法,首先要写一个字符串转化为数组的函数,代码如下
const int MAXS = 60*1024*1024; char buf[MAXS];void analyse(char *buf,int len = MAXS) {int i;numbers[i=0]=0;for (char *p=buf;*p && p-buf<len;p++)if (*p == ' ')numbers[++i]=0;elsenumbers[i] = numbers[i] * 10 + *p - '0'; }
把整个文件读入一个字符串最常用的方法是用fread,代码如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS];void fread_analyse() {freopen("data.txt","rb",stdin);int len = fread(buf,1,MAXS,stdin);buf[len] = '\0';analyse(buf,len); }
上述代码有着惊人的效率,经测试读取这10000000个数只用了0.29秒,效率提高了几乎10倍!掌握着种方法简直无敌了,不过,我记得fread是封装过的read,如果直接使用read,是不是更快呢?代码如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS];void read_analyse() {int fd = open("data.txt",O_RDONLY);int len = read(fd,buf,MAXS);buf[len] = '\0';analyse(buf,len); }
测试发现运行时间仍然是0.29秒,可见read不具备特殊的优势。到此已经结束了吗?不,我可以调用Linux的底层函数mmap,这个函数的功能是将文件映射到内存,是所有读文件方法都要封装的基础方法,直接使用mmap会怎样呢?代码如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS]; void mmap_analyse() {int fd = open("data.txt",O_RDONLY);int len = lseek(fd,0,SEEK_END);char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0); analyse(mbuf,len); }
经测试,运行时间缩短到了0.25秒,效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。回头测一下Pascal的速度如何?结果令人大跌眼镜,居然运行了2.16秒之多。程序如下:
constMAXN = 10000000; varnumbers :array[0..MAXN] of longint;i :longint; beginassign(input,'data.txt');reset(input);for i:=0 to MAXN doread(numbers[i]); end.
为确保准确性,我又换到Windows平台上测试了一下。结果如下表:
方法/平台/时间(秒) | Linux gcc | Windows mingw | Windows VC2008 |
scanf | 2.010 | 3.704 | 3.425 |
cin | 6.380 | 64.003 | 19.208 |
cin取消同步 | 2.050 | 6.004 | 19.616 |
fread | 0.290 | 0.241 | 0.304 |
read | 0.290 | 0.398 | 不支持 |
mmap | 0.250 | 不支持 | 不支持 |
Pascal read | 2.160 | 4.668 |
从上面可以看出几个问题
- Linux平台上运行程序普遍比Windows上快。
- Windows下VC编译的程序一般运行比MINGW(MINimal Gcc for Windows)快。
- VC对cin取消同步与否不敏感,前后效率相同。反过来MINGW则非常敏感,前后效率相差8倍。
- read本是linux系统函数,MINGW可能采用了某种模拟方式,read比fread更慢。
- Pascal程序运行速度实在令人不敢恭维。
希望此文能对大家有所启发,欢迎与我继续讨论。
BYVoid原创 转载请注明
转载于:https://www.cnblogs.com/zhaojunjie/p/3940187.html
【转载】探寻C++最快的读取文件的方案相关推荐
- [Reprint] 探寻C++最快的读取文件的方案
作者:BYVoid(https://www.byvoid.com/zhs/blog/fast-readfile) 版权协议:CC BY-NC-SA 3.0 Unported 在竞赛中,遇到大数据时,往 ...
- 探寻C++最快的读取文件的方案
文章转载自byvoid的Blog,原文链接在这里,在此对作者表示感谢.PS:很喜欢作者严谨的风格,有兴趣可以仔细阅读评论,可以学到很多东西. 在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈, ...
- 探寻C++读取文件最快的方式
在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据.还有人说Pascal的re ...
- 转载:C# IO读取文件问题:正由另一进程使用
C#IO读取文件问题:正由另一进程使用2008-11-28 09:04日前开发,在IO处理上遇到了无法操作的问题. 文件"D:\Log\Cargoabc\logfilecargoabc.tx ...
- python中读取文件编码_[转载]python中使用文件的读取编码问题
原文链接:https://www.cnblogs.com/qianboping/p/6524420.html 今天想写个程序合并文件的,以前一直觉得python的编码解码好烦,只要处理文件合并之类的都 ...
- java读取文件效率问题
日志原文:http://blog.sohu.com/people/!d2VsbGlteXlAc29odS5jb20=/156798731.html 最近在项目中有一个用smb读取共享文件的应用,在部署 ...
- python怎么读取文件-python怎么读写文件操作
本节内容:I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 I/O在计算机中是指Input/ ...
- java读取空格_java 读取文件路径空格和中文的处理
应用部署时,发生文件读取错误,发现是部署路径中含有空格的文件夹名,然后把应用服务器位置迁移了. 从网上找到如下方案: 1, TestURL().class.getResource("&quo ...
- python里怎么读取文件-python之文件读写
本节内容: I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 I/O在计算机中是指Input ...
最新文章
- mysql分页tmp_count,MySQL MyISAM和InnoDB引擎的写入速度优化比较,分页速度优化
- ios 内存深度优化_iOS 25个性能优化/内存优化常用方法
- scala数据结构之Maps和Tuples
- Object.definePropety
- 明天起100亿消费券来袭,请作好准备!
- 【Spring】SpringMVC 初始化 流程
- NodeManager 启动一会儿挂掉
- Linux之常用操作总结
- GERM格沵有哪些适合夏天的高颜值杯子推荐吗?
- CEFSharp崩溃分析及解决办法
- Ubuntu安装Mysql5.7
- HDU 2586	How far away ? tarjan算法求LCA
- 电脑的dns服务器未响应怎么解决,电脑DNS服务器未响应怎么解决
- matlab中的~用法和~=
- EXPDP、IMPDP规范及常用技巧总结
- 基于QT实现的alpha-beta剪枝算法搜索的象棋人机博弈游戏
- 微信头像存储mysql数据库
- 【LogiSim】便利的仿真软件,有了这个我又对硬件有了兴趣~
- python3 url解析 urllib.parse.urlparse 库简介
- 2019年全国大学生电子设计大学(D 题)简易电路特性测试仪(2)基础部分电路与代码
热门文章
- 【深度学习】U-Net 网络分割多分类医学图像解析
- 题解 P1918【 保龄球 】python和C++
- mysql拷贝恢复.frm_通过.frm .ibd文件恢复MySQL数据
- 网络营销——专业的站内、站外优化还是得靠专业网络营销公司
- 如何实现搜索列表_图解:如何理解与实现散列表
- commonjs是什么_第一步:面试官让我解释什么是Common.js和ES6模块化
- 解决go get 下载慢的问题
- 开发日记-20190328 关键词 利用eolinker一键快速生成API接口文档
- 无线基站侧的信令风暴根因——频繁的释放和连接RRC产生大量信令、设备移动导致小区重选信令增加、寻呼信令多...
- Docker 修改镜像源地址