void putong(long img[1922][1082])
{for(int j = 1; j < 1081; j++){for (int i = 1; i < 1921;i++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) / 4;}}
}

程序的功能：

源程序功能是对给定的数组模拟图像平滑算法，对数组的值进行更改

流程：任一点的颜色值为其上下左右4个点颜色的平均值，即：img[i][j] = ( img[i-1][j] + img[i+1][j] +img[i][j-1] + img[i][j+1] ) /4。

程序可能瓶颈：

1、这个程序不符合空间局部性

2、这个程序使用了占用时钟周期较长的除法

3、这个程序没有充分利用CPU，即流水线不是总处于满的状态，具有数据相关性。由于循环减少了分支预测失败的可能性，同时增加了循环体内语句并发执行的可能性，我们考虑使用循环展开对代码优化。

4.2 优化后的程序及说明（20分）

至少包含面向CPU、Cache的两种优化策略（20分），额外每增加1种优化方法加5分至第4章满分。

面向CPU(循环展开)：

void cpu(long img[1922][1082])//循环展开{int i;long bef1,aft1,bef2,aft2;long B[1082];for (i = 0;i < 1082;i++) {B[i] = img[0][i];}for(int j=1;j<1080;j+=8){for(int i=1;i<1921;i++){bef1=img[i][j+1];aft1=img[i][j+2];bef2=img[i][j+5];aft2=img[i][j+6];img[i][j]=(B[j]+img[i+1][j]+img[i][j-1]+bef1)/4;img[i][j+1]=(B[j+1]+img[i+1][j+1]+aft1+img[i][j])/4;img[i][j+2]=(B[j+2]+img[i+1][j+2]+bef1+img[i][j+3])/4;img[i][j+3]=(B[j+3]+img[i+1][j+3]+aft1+img[i][j+4])/4;img[i][j+4]=(B[j+4]+img[i+1][j+4]+img[i][j+3]+bef2)/4;img[i][j+5]=(B[j+5]+img[i+1][j+5]+aft2+img[i][j+4])/4;img[i][j+6]=(B[j+6]+img[i+1][j+6]+bef2+img[i][j+7])/4;img[i][j+7]=(B[j+7]+img[i+1][j+7]+aft2+img[i][j+8])/4;B[j] = img[i][j];B[j + 1] = img[i][j+1];B[j + 2] = img[i][j+2];B[j + 3] = img[i][j+3];B[j+4] = img[i][j+4];B[j + 5] = img[i][j+5];B[j + 6] = img[i][j+6];B[j + 7] = img[i][j+7];}}}

说明：

显然流水线只要流起来可以大大提高CPU的工作效率，我们在循环的时候，每次可以使用更多变量参与运算，能使流水线更好地流。于是。我首先讲边缘数据存储到数组B中。在主循环中，我设置的步长为8，我定义4个变量aft1和bef1，aft2和bef2，分别存储8个原数据的第3、2、7、6个，每次循环更新img数组后，更新B数组。

这样可以使硬件能让流水线很好地运作，即使在少数情况下也只牺牲一点效率。

面向Cache1（符合空间局部性）:

void cache(long img[1922][1082]){for(int i = 1; i < 1921;i++){for (int j = 1; j < 1081; j++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) /4;}}}

说明：

由于数组在电脑中按行进行存储，根据上课讲过的命中和不命中的知识，通过书中知识可以知道，对于数组来说，一旦程序访问了某个存储单元，在不久之后，其附近的存储单元也将被访问，即程序在一段时间内所访问的地址，可能集中在一定的范围之内，这是因为指令通常是顺序存放、顺序执行的，数据也一般是以向量、数组、表等形式簇聚存储的。如果一个存储器的位置被引用，那么将来他附近的位置也会被引用。如果其访问顺序和存储顺序一致，程序性能会提升很多。

面向Cache2（按行进行分块）:

void fenkuai_cpu_row(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1921; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = jj; i < jj + bsize; i++){for (j = 1; j < 1081; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) / 4;}}}}

说明：

根据csapp中所述，有一种有趣的技术叫做分块，它可以改善内部循环的时间局部性。分块的一般思想是将程序中的数据结构组织成称为块的大块。(在这里，“块”指的是应用程序级的数据块，而不是缓存块。)程序是结构化的，它将一个数据块加载到L1缓存中，对该数据块执行所有需要的读写操作，然后丢弃该数据块，加载下一个数据块，以此类推。与用于改进空间局部性的简单循环转换不同，阻塞使代码更难阅读和理解。由于这个原因，它最适合优化编译器或频繁执行的库例程。利用上述原理，我将数据按列分块，我默认一个块中有4个数据，进行试验后发现性能提升不少。

面向Cache3（按列进行分块）:

void fenkuai_cpu_col(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1081; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = 1; i < 1921; i++){for (j = jj; j < jj + bsize; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) / 4;}}}}

说明：

面向Cache4（按正方形进行分块）:

void fenkuai_cpu_row4(long img[1922][1082]){int i, j, k, kk = 4, jj = 4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int M = 1081, N = 1921;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1921; /* Amount that fits evenly into blocks */for (int ii = 1; ii < N; ii += bsize){for (int jj = 1; jj < M; jj += bsize){for (int i = ii; i < ((ii + bsize) > N ? N : ii + bsize); i++){for (int j = jj; j < ((jj + bsize) > M ? M : jj + bsize); j++){img[i][j] = (img[i - 1][j] + img[i + 1][j] + img[i][j - 1] + img[i][j + 1]) / 4;}}}}}一般的优化方法（除法变成移位操作）：void cache1(long img[1922][1082]){for(int j = 1; j < 1081; j++){for (int i = 1; i < 1921;i++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) >> 2;}}}

说明：

由于从效率上看，使用移位指令有更高的效率，因为移位指令占2个机器周期，而乘除法指令占4个机器周期。从硬件上看，移位对硬件更容易实现，所以会用移位，左移一位就乘2,右移一位处以2，这种乘除法考虑移位实现会更快。

整合所有方法：

void success(long img[1922][1082]){int i;long bef,aft;long B[1082];for (i = 0;i < 1082;i++) {B[i] = img[0][i];//存储边界值}for(int i=1;i<1921;i++){for(int j=1;j<1081;j+=4){bef=img[i][j+1];aft=img[i][j+2];img[i][j]=(B[j]+img[i+1][j]+img[i][j-1]+bef)>>2;img[i][j+1]=(B[j+1]+img[i+1][j+1]+aft+img[i][j])>>2;img[i][j+2]=(B[j+2]+img[i+1][j+2]+bef+img[i][j+3])>>2;img[i][j+3]=(B[j+3]+img[i+1][j+3]+aft+img[i][j+4])>>2;B[j] = img[i][j];B[j + 1] = img[i][j+1];B[j + 2] = img[i][j+2];B[j + 3] = img[i][j+3];}}}

4.3 优化前后的性能测试（10分）

测试方法：

使用C语言中的库函数测量程序开始到结束的时间，对各个优化方法的时间进行比较，而且我每次运算后打印指定位置数据，发现均相同，证明程序没出错。

测试结果：

图1性能测试截图

从测试结果可以看到，我采用的优化方法确实提高了程序性能，减少了程序运行时间。

整理所有运行时间如下表：

表1:性能测试结果

采用方法描述	运行时间(s)
(初始状态，没有进行任何优化，局部性很差)	0.86
after (一般有用的优化，除法变为移位操作)	0.55
after cache（空间局部性）	0.78
after cpu（循环展开8）	0.46
(整合所有非分块的优化方案)	0.42
按列对矩阵进行分块(cache)	0.80
按行对矩阵进行分块(cache)	0.77
按列对矩阵进行分块+除法变成移位	0.52
按行对矩阵进行分块+除法变成移位	0.47
分成4*4的块（cache）	0.42

4.4 结合自己计算机的硬件参数，分析优化后程序的各个参数选择依据。（15分）

我选择结合自己计算机的硬件参数，分析优化后程序的各个参数选择依据。

首先我查看了自己电脑的L1、L2、L3缓存大小，如下图所示：

对分块进行优化：

程序如下：

void fenkuai_cpu_row128(long img[1922][1082]){int bsize = 128;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1081; /* Amount that fits evenly into blocks */int M = 1081, N = 1921;for (int jj = 1; jj < M; jj += bsize){for (int ii = 1; ii < N; ii += bsize){for (int j = jj; j < ((jj + bsize) > M ? M : jj + bsize); j++){for (int i = ii; i < ((ii + bsize) > N ? N : ii + bsize); i++){img[i][j] = (img[i - 1][j] + img[i + 1][j] + img[i][j - 1] + img[i][j + 1]) / 4;}}}}}

以下为程序运行结果：

说明：Cache的层次，一般有L1, L2, L3 （L是level的意思）的cache。通常来说L1，L2是集成在CPU里面的（可以称之为On-chip cache），而L3是放在CPU外面（可以称之为Off-chip cache）。当然这个不是绝对的，不同CPU的做法可能会不太一样。这里面应该还需要加上 register，虽然register不是cache，但是把数据放到register里面是能够提高性能的。可以使用减少D-cache miss的数量，增加有效的数据访问的数量。这个要比I-cache优化难一些。由于我的L1高速缓存大小为512KB,8核，所以一个核为64KB,由于long数据类型是8个字节。每个分块的大小为128*128，所以每个块的miss次数是128。这样总的miss率就是1*1922*1081/（4*128），如果分成4*4的块，不命中率就会很高，经过实验分成更大的块，实验效果不好，根据我电脑的参数，选择128*128的块比选择其他参数效果更好。

对循环展开优化：

void success(long img[1922][1082]){int i;long bef,aft;long B[1082];for (i = 0;i < 1082;i++) {B[i] = img[0][i];//瀛樺偍杈圭晫鍊?}for(int i=1;i<1921;i++){for(int j=1;j<1081;j+=4){bef=img[i][j+1];aft=img[i][j+2];img[i][j]=(B[j]+img[i+1][j]+img[i][j-1]+bef)/4;img[i][j+1]=(B[j+1]+img[i+1][j+1]+aft+img[i][j])/4;img[i][j+2]=(B[j+2]+img[i+1][j+2]+bef+img[i][j+3])/4;img[i][j+3]=(B[j+3]+img[i+1][j+3]+aft+img[i][j+4])/4;B[j] = img[i][j];B[j + 1] = img[i][j+1];B[j + 2] = img[i][j+2];B[j + 3] = img[i][j+3];}}}

以下为运行结果：

说明：一个规律应当是被普遍认同的，那就是循环展开的程度越高，循环执行开销所占的比例就会越小。可是，根据实验结果，循环展开4次的结果确实好于循环展开8次的结果，经过分析，可能是由于循环展开8次初始化过多变量，导致程序性能提升效果比循环展开4次的效果差。

4.5 还可以采取的进一步的优化方案（5分）

正因为线程是调度的最小单位，控制好线程，也就相当于控制好了计算资源。

多线程与异步计算的关系密切，一般可以使用异步计算的，都可以用多线程来实现，而多线程加速也依赖于异步计算，利用多线程来并行处理多个任务，提高计算资源的利用率，也可以对我们的程序进行优化，从而提升程序性能。

程序代码如下，可以直接运行调试：

#include "stdio.h"#include<time.h>#include "math.h"long img[1922][1082];// void timecmp(long img[1922][1082])void test (long img[1922][1082]){// printf("\n");for(int k=0;k<1900;k+=500){printf("%ld\t",img[k][1000]);}printf("\n");}void putong(long img[1922][1082]){for(int j = 1; j < 1081; j++){for (int i = 1; i < 1921;i++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) / 4;}}}void cache1(long img[1922][1082]){for(int j = 1; j < 1081; j++){for (int i = 1; i < 1921;i++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) >> 2;}}}void cache(long img[1922][1082]){for(int i = 1; i < 1921;i++){for (int j = 1; j < 1081; j++){/* code */img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) /4;}}}void cpu(long img[1922][1082])//循环展开{int i;long bef,aft;long B[1082];for (i = 0;i < 1082;i++) {B[i] = img[0][i];//存储边界值}for(int j=1;j<1080;j+=4){for(int i=1;i<1921;i++){bef=img[i][j+1];aft=img[i][j+2];img[i][j]=(B[j]+img[i+1][j]+img[i][j-1]+bef)/4;img[i][j+1]=(B[j+1]+img[i+1][j+1]+aft+img[i][j])/4;img[i][j+2]=(B[j+2]+img[i+1][j+2]+bef+img[i][j+3])/4;img[i][j+3]=(B[j+3]+img[i+1][j+3]+aft+img[i][j+4])/4;B[j] = img[i][j];B[j + 1] = img[i][j+1];B[j + 2] = img[i][j+2];B[j + 3] = img[i][j+3];}}}void fenkuai_cpu_row(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1921; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = jj; i < jj + bsize; i++){for (j = 1; j < 1081; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) /4;}}}}void fenkuai_cpu_row_yi(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1921; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = jj; i < jj + bsize; i++){for (j = 1; j < 1081; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) >>2;}}}}void fenkuai_cpu_col(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1081; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = 1; i < 1921; i++){for (j = jj; j < jj + bsize; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) /4;}}}}void fenkuai_cpu_col_yi(long img[1922][1082]){int i, j, k, kk=4, jj=4;int bsize = 4;// int en = bsize * (1922/bsize); /* Amount that fits evenly into blocks */int en = 1081; /* Amount that fits evenly into blocks */for (jj = 1; jj < en; jj += bsize){for (i = 1; i < 1921; i++){for (j = jj; j < jj + bsize; j++){img[i][j] = (img[i-1][j] + img[i+1][j]+img[i][j-1] + img[i][j+1] ) >>2;}}}}void success(long img[1922][1082]){int i;long bef,aft;long B[1082];for (i = 0;i < 1082;i++) {B[i] = img[0][i];//存储边界值}for(int i=1;i<1921;i++){for(int j=1;j<1081;j+=4){bef=img[i][j+1];aft=img[i][j+2];img[i][j]=(B[j]+img[i+1][j]+img[i][j-1]+bef)>>2;img[i][j+1]=(B[j+1]+img[i+1][j+1]+aft+img[i][j])>>2;img[i][j+2]=(B[j+2]+img[i+1][j+2]+bef+img[i][j+3])>>2;img[i][j+3]=(B[j+3]+img[i+1][j+3]+aft+img[i][j+4])>>2;B[j] = img[i][j];B[j + 1] = img[i][j+1];B[j + 2] = img[i][j+2];B[j + 3] = img[i][j+3];}}}int main (){printf("startle!\n");int i = 0;for(int i=0;i<1922;i++){for (int j = 0; j < 1082; j++){/* code */img[i][j]= i+j;}}clock_t start_t = clock();for(i=0;i<50;i++)putong(img);clock_t end_t = clock();test(img);double sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(初始状态，没有进行任何优化，局部性很差)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)cache1(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("after (一般有用的优化，除法变为移位操作)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)cache(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("after cache（空间局部性） cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)cpu(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("after cpu（循环展开） cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)success(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(整合所有非分块的优化方案)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)fenkuai_cpu_col(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(分块col)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)fenkuai_cpu_row(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(分块row)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)fenkuai_cpu_col_yi(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(分块col+移位)cost time: %f(s)\n",sum_time);start_t = clock();for(i=0;i<50;i++)fenkuai_cpu_row_yi(img);end_t = clock();test(img);sum_time=((double)(end_t-start_t))/CLOCKS_PER_SEC;printf("(分块row+移位)cost time: %f(s)\n",sum_time);}

第5章总结

总的来说，这个实验收获还是很多的。尤其是对miss次数的定量分析，让我很受益。之前学习算法之类的，只会大概估计一下复杂度的等级，完全定量地对程序分析对我来说还是比较少。在其他方面，如怎样写出对缓存友好的代码，也有不少收获。

5.2 请给出对本次实验内容的建议

实验内容很好，就是某些问题描述不清，例如4.4题，没有给出操作实例，可能导致很多学生不知道从何做起，希望能改进这一点，其余做的都很好。

注：本章为酌情加分项。

参考文献

为完成本次实验你翻阅的书籍与网站等

[1] 林来兴. 空间控制技术[M]. 北京：中国宇航出版社，1992：25-42.

[2] 辛希孟. 信息技术与信息服务国际研讨会论文集：A集[C]. 北京：中国科学出版社，1999.

[3] 赵耀东. 新时代的工业工程师[M/OL]. 台北：天下文化出版社，1998 [1998-09-26]. http://www.ie.nthu.edu.tw/info/ie.newie.htm（Big5）.

[4] 谌颖. 空间交会控制理论与方法研究[D]. 哈尔滨：哈尔滨工业大学，1992：8-13.

[5] KANAMORI H. Shaking Without Quaking[J]. Science，1998，279（5359）：2063-2064.

[6] CHRISTINE M. Plant Physiology: Plant Biology in the Genome Era[J/OL]. Science，1998，281：331-332[1998-09-23]. http://www.sciencemag.org/cgi/ collection/anatmorp.

哈工大csapp-LAB3程序优化相关推荐

哈工大csapp lab3
计算机系统实验报告 1 - 实验报告实验(三) 题目 Binary Bomb 二进制炸弹专业计算学部学号 190110812 班级 7 学生刘新晨指导教师吴锐实验 ...
【读薄 CSAPP】贰机器指令与程序优化
[读薄 CSAPP]贰机器指令与程序优化文章目录 [读薄 CSAPP]贰机器指令与程序优化学习目标基础知识从 8086 到 Core i7 从 C 到机器代码汇编入门流程控制条件代码 ...
CSAPP lab3 bufbomb-缓冲区溢出攻击实验（下）bang boom kaboom
CSAPP lab3 bufbomb-缓冲区溢出攻击实验(上)smoke fizz CSAPP lab3 bufbomb-缓冲区溢出攻击实验(下)bang boom kaboom 栈结构镇楼这里先给 ...
中国电子学会图形化四级编程题：程序优化
「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复[Scratch]或[Python],即可进入.如果加入了之前的社群不需要重复加入. 我们将有关编程题目的教学视频已经发布到抖 ...
【青少年编程】【四级】绘图程序优化
「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复[Scratch]或[Python],即可进入.如果加入了之前的社群不需要重复加入. 微信后台回复"资料下载&quo ...
ESP32检测调制激光信号程序优化
▌01 调制激光检测 1.裁判系统要求在测试ESP32S基本模块的功能,并验证是否可以应用在AI智能车竞赛检测激光信号中测试了基于 ESP32 模块来检测全国大学生智能车竞赛中的室内AI视 ...
推荐CUDA程序优化的15个策略
推荐CUDA程序优化的15个策略 0条评论 2011-07-06 09:48 来源:潇湘学子岳麓生的博客作者: 潇湘学子岳麓生编辑: 王玉圆 [IT168 技术]在<CUDA程序优化策略 ...
CUDA程序优化技巧
CUDA程序优化技巧 2013-11-18 23:41 1469人阅读评论(4) 收藏举报分类: CUDA(24) 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 有如下 ...
CUDA学习笔记之程序优化
CUDA学习笔记之程序优化标签: cuda优化conflict存储算法数学计算 2010-01-05 17:18 5035人阅读评论(4) 收藏举报分类: CUDA(6) 版权声明:本文为博主 ...

哈工大csapp-LAB3程序优化

第1章实验基本信息

1.1 实验目的

1.2 实验环境与工具

1.2.1 硬件环境

1.2.2 软件环境

1.2.3 开发工具

1.3 实验预习

第2章实验预习

2.1 程序优化的十大方法（5分）

2.2性能优化的方法概述（5分）

2.3 Linux下性能测试的方法（5分）

2.4 Windows下性能测试的方法（5分）

第3章性能优化的方法

第5章总结

5.1 请总结本次实验的收获

5.2 请给出对本次实验内容的建议

参考文献

哈工大csapp-LAB3程序优化相关推荐

最新文章

热门文章