原文地址:https://www.byvoid.com/blog/fast-readfile/

在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中很不错,但具体如何从没试过,因此今天就索性把能想到的所有的读数据的方式都测试了一边,结果是惊人的。

竞赛中读数据的情况最多的莫过于读一大堆整数了,于是我写了一个程序,生成一千万个随机数到data.txt中,一共55MB。然后我写了个程序主干计算运行时间,代码如下:

#include <ctime>
int main()
{int start = clock();//DO SOMETHINGprintf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);
}

最简单的方法就算写一个循环scanf了,代码如下:

const int MAXN = 10000000;int numbers[MAXN];void scanf_read()
{freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)scanf("%d",&numbers[i]);
}

可是效率如何呢?在我的电脑Linux平台上测试结果为2.01秒。接下来是cin,代码如下

const int MAXN = 10000000;int numbers[MAXN];void cin_read()
{freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)std::cin >> numbers[i];
}

出乎我的意料,cin仅仅用了6.38秒,比我想象的要快。cin慢是有原因的,其实默认的时候,cin与stdin总是保持同步的,也就是说这两种方法可以混用,而不必担心文件指针混乱,同时cout和stdout也一样,两者混用不会输出顺序错乱。正因为这个兼容性的特性,导致cin有许多额外的开销,如何禁用这个特性呢?只需一个语句std::ios::sync_with_stdio(false);,这样就可以取消cin于stdin的同步了。程序如下:

const int MAXN = 10000000;int numbers[MAXN];void cin_read_nosync()
{freopen("data.txt","r",stdin);std::ios::sync_with_stdio(false);for (int i=0;i<MAXN;i++)std::cin >> numbers[i];
}

取消同步后效率究竟如何?经测试运行时间锐减到了2.05秒,与scanf效率相差无几了!有了这个以后可以放心使用cin和cout了。

接下来让我们测试一下读入整个文件再处理的方法,首先要写一个字符串转化为数组的函数,代码如下

const int MAXS = 60*1024*1024;
char buf[MAXS];void analyse(char *buf,int len = MAXS)
{int i;numbers[i=0]=0;for (char *p=buf;*p && p-buf<len;p++)if (*p == ' ')numbers[++i]=0;elsenumbers[i] = numbers[i] * 10 + *p - '0';
}

把整个文件读入一个字符串最常用的方法是用fread,代码如下:

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;int numbers[MAXN];
char buf[MAXS];void fread_analyse()
{freopen("data.txt","rb",stdin);int len = fread(buf,1,MAXS,stdin);buf[len] = '\0';analyse(buf,len);
}

上述代码有着惊人的效率,经测试读取这10000000个数只用了0.29秒,效率提高了几乎10倍!掌握着种方法简直无敌了,不过,我记得fread是封装过的read,如果直接使用read,是不是更快呢?代码如下:

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;int numbers[MAXN];
char buf[MAXS];void read_analyse()
{int fd = open("data.txt",O_RDONLY);int len = read(fd,buf,MAXS);buf[len] = '\0';analyse(buf,len);
}

测试发现运行时间仍然是0.29秒,可见read不具备特殊的优势。到此已经结束了吗?不,我可以调用Linux的底层函数mmap,这个函数的功能是将文件映射到内存,是所有读文件方法都要封装的基础方法,直接使用mmap会怎样呢?代码如下:

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;int numbers[MAXN];
char buf[MAXS];
void mmap_analyse()
{int fd = open("data.txt",O_RDONLY);int len = lseek(fd,0,SEEK_END);char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);    analyse(mbuf,len);
}

经测试,运行时间缩短到了0.25秒,效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。回头测一下Pascal的速度如何?结果令人大跌眼镜,居然运行了2.16秒之多。程序如下:

constMAXN = 10000000;
varnumbers :array[0..MAXN] of longint;i :longint;
beginassign(input,'data.txt');reset(input);for i:=0 to MAXN doread(numbers[i]);
end.

为确保准确性,我又换到Windows平台上测试了一下。结果如下表:

方法/平台/时间(秒) Linux gcc Windows mingw Windows VC2008
scanf 2.010 3.704 3.425
cin 6.380 64.003 19.208
cin取消同步 2.050 6.004 19.616
fread 0.290 0.241 0.304
read 0.290 0.398 不支持
mmap 0.250 不支持 不支持
Pascal read 2.160 4.668  

从上面可以看出几个问题

  1. Linux平台上运行程序普遍比Windows上快。
  2. Windows下VC编译的程序一般运行比MINGW(MINimal Gcc for Windows)快。
  3. VC对cin取消同步与否不敏感,前后效率相同。反过来MINGW则非常敏感,前后效率相差8倍。
  4. read本是linux系统函数,MINGW可能采用了某种模拟方式,read比fread更慢。
  5. Pascal程序运行速度实在令人不敢恭维。

希望此文能对大家有所启发,欢迎与我继续讨论。

BYVoid原创 转载请注明

转载于:https://www.cnblogs.com/zhaojunjie/p/3940187.html

【转载】探寻C++最快的读取文件的方案相关推荐

  1. [Reprint] 探寻C++最快的读取文件的方案

    作者:BYVoid(https://www.byvoid.com/zhs/blog/fast-readfile) 版权协议:CC BY-NC-SA 3.0 Unported 在竞赛中,遇到大数据时,往 ...

  2. 探寻C++最快的读取文件的方案

    文章转载自byvoid的Blog,原文链接在这里,在此对作者表示感谢.PS:很喜欢作者严谨的风格,有兴趣可以仔细阅读评论,可以学到很多东西. 在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈, ...

  3. 探寻C++读取文件最快的方式

    在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据.还有人说Pascal的re ...

  4. 转载:C# IO读取文件问题:正由另一进程使用

    C#IO读取文件问题:正由另一进程使用2008-11-28 09:04日前开发,在IO处理上遇到了无法操作的问题. 文件"D:\Log\Cargoabc\logfilecargoabc.tx ...

  5. python中读取文件编码_[转载]python中使用文件的读取编码问题

    原文链接:https://www.cnblogs.com/qianboping/p/6524420.html 今天想写个程序合并文件的,以前一直觉得python的编码解码好烦,只要处理文件合并之类的都 ...

  6. java读取文件效率问题

    日志原文:http://blog.sohu.com/people/!d2VsbGlteXlAc29odS5jb20=/156798731.html 最近在项目中有一个用smb读取共享文件的应用,在部署 ...

  7. python怎么读取文件-python怎么读写文件操作

    本节内容:I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 I/O在计算机中是指Input/ ...

  8. java读取空格_java 读取文件路径空格和中文的处理

    应用部署时,发生文件读取错误,发现是部署路径中含有空格的文件夹名,然后把应用服务器位置迁移了. 从网上找到如下方案: 1, TestURL().class.getResource("&quo ...

  9. python里怎么读取文件-python之文件读写

    本节内容: I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 I/O在计算机中是指Input ...

最新文章

  1. mysql分页tmp_count,MySQL MyISAM和InnoDB引擎的写入速度优化比较,分页速度优化
  2. ios 内存深度优化_iOS 25个性能优化/内存优化常用方法
  3. scala数据结构之Maps和Tuples
  4. Object.definePropety
  5. 明天起100亿消费券来袭,请作好准备!
  6. 【Spring】SpringMVC 初始化 流程
  7. NodeManager 启动一会儿挂掉
  8. Linux之常用操作总结
  9. GERM格沵有哪些适合夏天的高颜值杯子推荐吗?
  10. CEFSharp崩溃分析及解决办法
  11. Ubuntu安装Mysql5.7
  12. HDU 2586 How far away ? tarjan算法求LCA
  13. 电脑的dns服务器未响应怎么解决,电脑DNS服务器未响应怎么解决
  14. matlab中的~用法和~=
  15. EXPDP、IMPDP规范及常用技巧总结
  16. 基于QT实现的alpha-beta剪枝算法搜索的象棋人机博弈游戏
  17. 微信头像存储mysql数据库
  18. 【LogiSim】便利的仿真软件,有了这个我又对硬件有了兴趣~
  19. python3 url解析 urllib.parse.urlparse 库简介
  20. 2019年全国大学生电子设计大学(D 题)简易电路特性测试仪(2)基础部分电路与代码

热门文章

  1. 【深度学习】U-Net 网络分割多分类医学图像解析
  2. 题解 P1918【 保龄球 】python和C++
  3. mysql拷贝恢复.frm_通过.frm .ibd文件恢复MySQL数据
  4. 网络营销——专业的站内、站外优化还是得靠专业网络营销公司
  5. 如何实现搜索列表_图解:如何理解与实现散列表
  6. commonjs是什么_第一步:面试官让我解释什么是Common.js和ES6模块化
  7. 解决go get 下载慢的问题
  8. 开发日记-20190328 关键词 利用eolinker一键快速生成API接口文档
  9. 无线基站侧的信令风暴根因——频繁的释放和连接RRC产生大量信令、设备移动导致小区重选信令增加、寻呼信令多...
  10. Docker 修改镜像源地址