MPI编程及性能优化

MPI预定义数据类型	相应的C数据类型
MPI_CHAR	signed char
MPI_SHORT	signed short int
MPI_INT	signed int
MPI_LONG	signed long int
MPI_UNSIGNED_CHAR	unsigned char
MPI_UNSIGNED_SHORT	unsigned short int
MPI_UNSIGNED	unsigned int
MPI_UNSIGNED_LONG	unsigned long int
MPI_FLOAT	float
MPI_DOUBLE	double
MPI_LONG_DOUBLE	long double
MPI_BYTE	无对应类型
MPI_PACKED	无对应类型

对于初学者来说，应尽可能保证发送和接收的数据类型完全一致。

(2) 导出数据类型

除了这些基本数据类型之外，MPI还允许通过导出数据类型，将不连续的，甚至是不同类型的数据元素组合在一起形成新的数据类型。我们称这种由用户定义的数据类型为导出数据类型。

归纳起来类型匹配规则可以概括为：

有类型数据的通信，发送方和接收方均使用相同的数据类型；

无类型数据的通信，发送方和接收方均以MPI_BYTE作为数据类型；

打包数据的通信，发送方和接收方均使用MPI_PACKED。

2. 通信域

一个通信域（comm）包含一个进程组（process group）及其上下文（context）。进程组是进程的有限有序集。通信域限定了消息传递的进程范围。

MPI实现已经预先定义了两个进程组：MPI_COMM_SELF，只包含各个进程自己的进程组；MPI_COMM_WORLD，包含本次启动的所有MPI进程的进程组。同时，MPI还为通信子提供了各种管理函数，其中包括：

(1) 通信域比较int MPI_Comm_compare（comm1, comm2, result）：如comm1,comm2为相同句柄，则result为MPI_Ident；如果仅仅是各进程组的成员和序列号都相同，则result为MPI_Congruent；如果二者的组成员相同但序号不同则结果为MPI_Similar；否则，结果为MPI_Unequal。

(2) 通信域拷贝int MPI_Comm_dup（comm, newcom）：对comm进行复制得到新的通信域newcomm。

(3) 通信域分裂int MPI_Comm_split（comm, color, key, newcomm）：本函数要求comm进程组中的每个进程都要执行，每个进程指定一个color（整型），此调用首先将具有相同color值的进程形成一个新的进程组，新产生的通信域与这些进程组一一对应。新通信域中各个进程的顺序编号根据key（整型）的大小决定，即key越小，则相应进程在新通信域中的顺序编号也越小，若一个进程中的key相同，则根据这两个进程在原来通信域中顺序号决定新的进程号。一个进程可能提供color值为MPI_Undefined，此种情况下，其newcomm返回MPI_COMM_NULL。

(4) 通信域销毁int MPI_Comm_free（comm）：释放给定通信域。

上述函数都返回错误码。

2.5 统计时间

MPI提供了两个时间函数MPI_Wtime和MPI_Wtick。其中，MPI_Wtime函数返回一个双精度数，标识从过去的某点的时间到当前时间所消耗的时间秒数。而函数MPI_Wtick则返回MPI_Wtime结果的精度。

2.6 错误管理

MPI在错误管理方面提供了丰富的接口函数，这里我们介绍其中最简单的部分接口。

n 用status.MPI_ERROR来获取错误码。

n MPI终止MPI程序执行的函数MPI_Abort。

int MPI_Abort（MPI_Comm comm, int errorcode）

它使comm通信域的所有进程退出，返回errorcode给调用的环境。通信域comm中的任一进程调用此函数都能够使该通信域内所有的进程结束运行。

第3节 MPI群集通信

除了前面介绍的点到点通信之外，MPI还提供了群集通信。所谓群集通信，包含了一对多，多对一和多对多的进程通信模式。它的最大的特点就是多个进程参与通信，下面我们将要介绍在MPI中常用的几个群集通信函数。

3.1 同步

本函数接口是：int MPI_Barrier（MPI_Comm comm）。

这个函数像一道路障。在操作中，通信子comm中的所有进程相互同步，即它们相互等待，直到所有进程都执行了他们各自的MPI_Barrier函数，然后再各自接着开始执行后续的代码。同步函数是并行程序中控制执行顺序的有效手段。

3.2 广播

广播顾名思义，就是一对多的传送消息。它的作用是从一个root进程向组内所有其他的进程发送一条消息。它的接口形式是：

int MPI_Bcast（ void *buffer, int count, MPI_Datatype datatype, int root, MPI_Comm comm ）

图7.13给出了广播操作的示意。

图7.13 广播操作示意图图

3.3 聚集

聚集函数MPI_Gather是一个多对一的通信函数。其接口为：

int MPI_Gather（void *sendbuf, int sendcnt, MPI_Datatype sendtype,

void *recvbuf, int recvcnt, MPI_Datatype recvtype,

int root, MPI_Comm comm）

root进程接收该通信组每一个成员进程（包括root自已）发送的消息。这n个消息的连接按进程号排列存放在root进程的接收缓冲中。每个发送缓冲由三元组（sendbuf, sendcnt, sendtype）标识。所有非root进程忽略接收缓冲，对root进程发送缓冲由三元组（recvbuf, recvcnt, recvtype）标识。图7.14给出聚集操作的示意。

图7.14 聚集操作示意图

3.4 播撒

int MPI_Scatter（void *sendbuf, int sendcnt, MPI_Datatype sendtype,

void *recvbuf, int recvcnt, MPI_Datatype recvtype, int root,

MPI_Comm comm）

播撒函数MPI_Scatter是一对多的传递消息。但是它和广播不同，root进程向各个进程传递的消息是可以不同的。Scatter实际上执行的是与Gather相反的操作。

3.5扩展的聚集和播撒操作

MPI_Allgather的作用是每一个进程都收集到其他所有进程的消息，它相当于每一个进程都执行了MPI_Gather执行完了MPI_Gather之后，所有的进程的接收缓冲区的内容都是相同的，也就是说每个进程给所有进程都发送了一个相同的消息，所以名为allgather。本函数的接口是：

int MPI_Allgather（void *sendbuf, int sendcount, MPI_Datatype sendtype,

void *recvbuf, int recvcount, MPI_Datatype recvtype,

MPI_Comm comm）

图7.15给出了扩展的聚集和播撒操作的示意。

图7.15 扩展的聚集和播撒操作示意图

3.6全局交换

MPI_Allgather每个进程发一个相同的消息给所有的进程，而MPI_Alltoall散发给不同进程的消息是不同的。因此，它的发送缓冲区也是一个数组。MPI_Alltoall的每个进程可以向每个接收者发送数目不同的数据，第i个进程发送的第j块数据将被第j个进程接收并存放在其接收消息缓冲区recvbuf的第i块，每个进程的sendcount和sendtype的类型必须和所有其他进程的recvcount和recvtype相同，这也意谓着在每个进程和根进程之间发送的数据量必须和接收的数据量相等。函数接口为：

int MPI_Alltoall（void *sendbuf, int sendcount, MPI_Datatype sendtype,

void *recvbuf, int recvcount, MPI_Datatype recvtype,

MPI_Comm comm）

全局交换的操作示意图为图7.4.4。

图7.4.4 全局交换操作示意图

3.7规约与扫描

MPI提供了两种类型的聚合操作：归约（reduction）和扫描（scan）。

1.归约

int MPI_Reduce（void *sendbuf, void *recvbuf, int count, MPI_Datatype datatype,

MPI_Op op, int root, MPI_Comm comm）

这里每个进程的待处理数据存放在sendbuf中，可以是标量也可以是向量。所有进程将这些值通过输入的操作子op计算为最终结果并将它存入root进程的recvbuf。数据项的数据类型在Datatype域中定义。具体的归约操作包括：

规约操作的数据类型组合如表7.4.1所示。

表7.4.1 规约操作与相应类型的对应关系

操作	允许的数据类型
MPI_MAX,MPI_MIN	C整数，Fortran整数，浮点数
MPI_SUM,MPI_PROD	C整数，Fortran整数，浮点数，复数
MPI_LAND,MPI_LOR,MPI_XLOR	C整数，逻辑型
MPI_BAND,MPI_BOR,MPI_BXOR	C整数，Fortran整数，字节型

在MPI中，针对规约操作，所有的MPI预定义的操作都是可结合的，也是可交换的。同时，用户可以指定自定义的函数操作，这些操作是也要可结合的，但可以不是可交换的。

2.扫描

int MPI_Scan（void *sendbuf, void *recvbuf, int count, MPI_Datatype datatype,

MPI_Op op, MPI_Comm comm）

MPI_Scan常用于对分布于组中的数据作前置归约操作。此操作将序列号为0，···，i（包括i）的进程发送缓冲区的归约结果存入序列号为i 的进程接收消息缓冲区中。这种操作支持的数据类型、操作以及对发送及接收缓冲区的限制和规约相同。与规约相比，扫描Scan操作省去了Root域，因为扫描是将部分值组合成n个最终值，并存放在n个进程的recvbuf中。具体的扫描操作由Op域定义。

MPI的归约和扫描操作允许每个进程贡献向量值，而不只是标量值。向量的长度由Count定义。MPI也支持用户自定义的归约操作。

第4节 MPI性能分析与优化举例

4.1 选取计算粒度

当通信的成为并行程序性能瓶颈的时候，一般来说选取较高的计算粒度可以降低进程间的通信开销。例如，用7个进程完成A、B、C 3个不相关的任务，如果B的计算量为A的2倍，而C的计算量为A的4倍。

一种并行执行的策略是采用任务内并行的方式，如图7.16（a）所示，这种方案中对于每一个任务都在7个进程上并行执行，所以每执行一个任务需要进行一次数据分配，和一次数据收集。而采用任务间并行的模式，即更大粒度的并行分配方式，只需要一次数据分配和一次数据收集，节约了两次集合通信(如图7.16（b）所示)。

（a）任务内并行（b）任务间并行

图7.16 不同粒度并行模式示意图

4.2聚合消息

一种减少通信次数的方法就是将小的消息聚合起来一次发送，这种优化称为消息聚合。如果零碎的消息很多，则通过消息聚合可以得到很大的性能提高。

4.3解决负载均衡问题

在并行计算中，如果各个处理器（核）上的工作需要的完成时间不同，则会使先完成的处理器等待未完成的处理器（核），浪费了计算资源。若这种情况如果比较严重，就应该采用策略来使各处理器负载尽量平衡。一般采用的策略有两种，一种为静态负载平衡，一种为动态负载平衡。前者适用于计算前可以准确知道总的负载，而且这些负载容易平均划分给各个进程的情况。而对于事先不知道负载总数，或者总负载不易平均划分的情况，则可能需要采用动态负载划分来解决。

稠密的矩阵与向量乘法运算是一个静态负载平衡的例子，假设矩阵为N×M阶，而有p个相同处理器可以用于计算，按行分解每个处理器分得或行，若干按列分解每个处理器分得或列，如图7.19所示。当然还可以按矩形块分解矩阵，这时要根据具体矩形块的大小进行。

动态负载平衡我们采用三角矩阵与向量的乘法为例。存在一个管理节点，将矩阵未完成的行发送给工作节点，当工作节点完成任务后主动向管理节点索要任务，当管理节点上没有未完成任务时，向所有进程发送终止信号，如图7.20所示。这是通过主从模式，有效维护任务池，实现动态负载平衡的例子。

图7.19 矩阵向量乘静态负载平衡示意图

图7.20 动态负载平衡示意图

from: http://jpck.zju.edu.cn/eln/200805131515180671/page.jsp?cosid=1423&JSPFILE=page&LISTFILE=list&CHAPFILE=listchapter&PATH=200805131515180671&ROOTID=6380&NODEID=6403&DOCID=8717