Neno和OpenMP的性能提升验证

1、环境配置：
（1）NDK的环境；
（2）ARM的CPU；

normal	neon	openMP
56	64	37(存在波动)

测试实例1：normal,正常的测试一个求float类型的平方的一个例子；具体如下：
void computeMap(float* in, float* out, int LEN){
TRACE_B();
for(int i=0 ;i<LEN;i++)
{
out[i]=in[i]in[i];
}
}
测试实例 2：neno方式的应用，通过对一个128位字节，一次计算4个float类型的平方的计算来加快计算；具体如下；
void computeNeno(float in, float* out, int LEN){
TRACE_B();
int end=LEN-LEN%4;
for(int i=0;i<end;i=i+4){
float32x4_t a = vld1q_f32(in+i);
a=vmulq_f32(a,a);
vst1q_f32(out+i,a);
}
for(int j=end;j<LEN;j++){
out[j]=in[j]in[j];
}
}
测试实例3：OpenMP方式的应用，通过设定#pragma omp parallel for来对neno方式中的for循环实现多线程的并行，但需注意每次循环之间不能有关系。不然多线程的计算时序可能会影响计算的结果，例如累加求和的方式就有一定的局限性，但是也有方式解决；
void computeOmp(float in, float* out, int LEN){
TRACE_B();
int end=LEN-LEN%4;
#pragma omp parallel for
for(int i=0;i<end;i=i+4){
float32x4_t a = vld1q_f32(in+i);
a=vmulq_f32(a,a);
vst1q_f32(out+i,a);
}
for(int j=end;j<LEN;j++){
out[j]=in[j]*in[j];
}
}
以上测试用例中，方式一（normal）和方式二(neno)的性能测试数据，相差无几，neno 并没有起到预期的性能提升，此处怀疑normal方式的具体实现内部已经通过neno来做了性能够优化；
方式三（openmap）中通过指令来实现多线程来实现for循环的方式也不太稳定，在某些测测试中有明显提升，但是大部分的测试测试中并没有带来很好的测试预期数据；具体原因还不明；需要进一步的分析；
下面附上有几组三种测试方式的测试性能数据；每一个循环依次代表三种测试用例；
18365.047 I [T_BEG] main computeMap() E
18365.100 I [T_END] main computeMap() X. perf:53.61ms
18365.101 I [T_BEG] main computeNeno() E
18365.154 I [T_END] main computeNeno() X. perf:53.53ms
18365.154 I [T_BEG] main computeOmp() E
18365.214 I [T_END] main computeOmp() X. perf:60.01ms
18365.215 D main
round:1
18365.215 I [T_BEG] main computeMap() E
18365.272 I [T_END] main computeMap() X. perf:57.01ms
18365.272 I [T_BEG] main computeNeno() E
18365.334 I [T_END] main computeNeno() X. perf:62.33ms
18365.334 I [T_BEG] main computeOmp() E
18365.396 I [T_END] main computeOmp() X. perf:61.34ms
18365.396 D main
round:2
18365.396 I [T_BEG] main computeMap() E
18365.456 I [T_END] main computeMap() X. perf:60.05ms
18365.456 I [T_BEG] main computeNeno() E
18365.521 I [T_END] main computeNeno() X. perf:64.98ms
18365.522 I [T_BEG] main computeOmp() E
18365.584 I [T_END] main computeOmp() X. perf:62.37ms
18365.585 D main
round:3
18365.585 I [T_BEG] main computeMap() E
18365.646 I [T_END] main computeMap() X. perf:60.52ms
18365.646 I [T_BEG] main computeNeno() E
18365.712 I [T_END] main computeNeno() X. perf:65.20ms
18365.712 I [T_BEG] main computeOmp() E
18365.774 I [T_END] main computeOmp() X. perf:62.06ms
18365.775 D main
round:4
18365.775 I [T_BEG] main computeMap() E
18365.832 I [T_END] main computeMap() X. perf:57.18ms
18365.833 I [T_BEG] main computeNeno() E
18365.893 I [T_END] main computeNeno() X. perf:60.46ms
18365.893 I [T_BEG] main computeOmp() E
18365.955 I [T_END] main computeOmp() X. perf:61.68ms
18365.955 D main
round:5
18365.955 I [T_BEG] main computeMap() E
18366.008 I [T_END] main computeMap() X. perf:52.84ms
18366.008 I [T_BEG] main computeNeno() E
18366.069 I [T_END] main computeNeno() X. perf:60.86ms
18366.069 I [T_BEG] main computeOmp() E
18366.130 I [T_END] main computeOmp() X. perf:61.57ms
18366.130 D main
round:6
18366.130 I [T_BEG] main computeMap() E
18366.186 I [T_END] main computeMap() X. perf:55.90ms
18366.186 I [T_BEG] main computeNeno() E
18366.250 I [T_END] main computeNeno() X. perf:63.44ms
18366.250 I [T_BEG] main computeOmp() E
18366.311 I [T_END] main computeOmp() X. perf:60.65ms
18366.311 D main
round:7
18366.311 I [T_BEG] main computeMap() E
18366.370 I [T_END] main computeMap() X. perf:58.36ms
18366.370 I [T_BEG] main computeNeno() E
18366.434 I [T_END] main computeNeno() X. perf:64.35ms
18366.435 I [T_BEG] main computeOmp() E
18366.495 I [T_END] main computeOmp() X. perf:60.55ms
18366.495 D main
round:8
18366.495 I [T_BEG] main computeMap() E
18366.553 I [T_END] main computeMap() X. perf:57.55ms
18366.553 I [T_BEG] main computeNeno() E
18366.613 I [T_END] main computeNeno() X. perf:60.20ms
18366.614 I [T_BEG] main computeOmp() E
18366.675 I [T_END] main computeOmp() X. perf:61.62ms
18366.675 D main
round:9
18366.675 I [T_BEG] main computeMap() E
18366.732 I [T_END] main computeMap() X. perf:56.57ms
18366.732 I [T_BEG] main computeNeno() E
18366.796 I [T_END] main computeNeno() X. perf:64.04ms
18366.796 I [T_BEG] main computeOmp() E
18366.834 I [T_END] main computeOmp() X. perf:37.78ms

附一：OpenMP多线程应用程序性能的影响因素：
1、OpenMP本身的开销； OpenMP获得应用程序多线程并行化的能力需要程序库的支持，程序库的执行需要开销，所以只有在并行执行代码负担足够大，而引入OpenMP本身的开销又足够小时，引入并行化操作才能提高程序执行效率。
2、负载均衡；
3、线程同步带来的开销；
附二：OpenMP的常用制导指令；
1、parallel制导指令用来创建并行域，后边要跟一个大括号将要并行执行的代码放在一起
#pragma omp parallel
{
cout << “Test” << endl;
}
其中的输出test会根据所应用的CPU是几核而输出几次；
2、使用parallel制导指令只是产生了并行域，让多个线程分别执行相同的任务，并没有实际的使用价值。parallel for用于生成一个并行域，并将计算任务在多个线程之间分配，从而加快计算运行的速度。可以让系统默认分配线程个数，也可以使用num_threads子句指定线程个数。
#pragma omp parallel for num_threads(6)
for (int i = 0; i < 12; i++)
{
printf(“OpenMP Test, 线程编号为: %d\n”, omp_get_thread_num());
}

但是实例三的测试验证中通过设定#pragma omp parallel for num_threads()设定1 2 4 8等线程数时性能都没有多大的变化。。。。。。

Neno和OpenMP的性能提升验证相关推荐

图像检索：layer选择与fine-tuning性能提升验证
这个世界上肯定有另一个我,做着我不敢做的事,过着我想过的生活.一个人逛街,一个人吃饭,一个人旅行,一个人做很多事.极致的幸福,存在于孤独的深海.在这样日复一日的生活里,我逐渐和自己达成和解. 作为迁移 ...
深度干货！如何将深度学习训练性能提升数倍？
作者 | 车漾,阿里云高级技术专家顾荣,南京大学副研究员责编 | 唐小引头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 近些年,以深度学习为代表的人工智能技术 ...
干货回顾丨深度学习性能提升的诀窍
Pedro Ribeiro Simoes拍摄原文: How To Improve Deep Learning Performance 作者: Jason Brownlee 你是如何提升深度学习模型的 ...
Puppet 4 性能提升超2倍，升级前应该你知悉的变化
1.激动人心的改进 \ Puppet4的第一个正式版本于2015年4月15日发布截止到2016年12月28日Puppet已正式发布了4.8.1版本.Puppet4与3.x版本相比有两点不同:很多的变化 ...
huge page 能给MySQL 带来性能提升吗？
点击蓝色"程序猿DD"关注我回复"资源"获取独家整理的学习资料! 转自公众号:yangyidba 一前言最近一直在做性能压测相关的事情,有公众号的读者朋友 ...
深度学习性能提升的诀窍
from: http://geek.csdn.net/news/detail/104190 原文: How To Improve Deep Learning Performance 作者: Jason ...
英特尔cpu发布时间表_10纳米来了：英特尔十一代酷睿上市，性能提升20%，AI算力乘5倍...
对于笔记本用户来说,今年底似乎是个换机的好时候. 机器之心报道,机器之心编辑部. 传闻已久的 11 代酷睿正式发布了.Tiger Lake 今天的上市,预示着英特尔的 10 纳米芯片正式铺开.这一次新 ...
python gc内存_禁用 Python GC，Instagram 性能提升10%
通过关闭 Python 垃圾收集(GC)机制,该机制通过收集和释放未使用的数据来回收内存,Instagram 的运行效率提高了 10 %.是的,你没听错!通过禁用 GC,我们可以减少内存占用并提高 C ...
性能提升约 7 倍！Apache Flink 与 Apache Hive 的集成
导读:随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态.S ...

Neno和OpenMP的性能提升验证

Neno和OpenMP的性能提升验证相关推荐

最新文章

热门文章