背景:学习使用SIMD AVX指令集,已经完成了一份代码,在Windows中能正常运行,想迁移到Linux中,结果却出现两个问题,最终逐渐排坑至可以正常运行。

环境:windows 10, ubuntu 20.04

目录

  • 一、Windows下正常运行代码
  • 二、Ubuntu中运行问题一:编译错误
  • 三、Ubuntu运行问题二:Segmentation fault (core dumped)
  • 四、成功运行结果
  • 参考资料

一、Windows下正常运行代码

#include<immintrin.h>
#include<iostream>
#include<cmath>using namespace std;void sinx(int, int, float*, float*);
void print_MM(__m256);int main()
{int N = 8, terms = 3;float x[8] = { 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 }, result[8];sinx(N, terms, x, result);for (int i = 0; i < N; ++i){printf("sin(%.3f) = %.10f;%.10f\n", x[i], result[i], sin(x[i]));}return 0;
}void sinx(int N, int terms, float* x, float* result)
{float three_fact = 6;for (int i = 0; i < N; i += 8){__m256 origx = _mm256_load_ps(&x[i]);print_MM(origx);__m256 value = origx;__m256 numer = _mm256_mul_ps(origx, _mm256_mul_ps(origx, origx));__m256 denom = _mm256_broadcast_ss(&three_fact);int sign = -1;for (int j = 1; j <= terms; j++){//value += sign * numer / denom__m256 tmp1 = _mm256_div_ps(_mm256_mul_ps(_mm256_set1_ps(sign), numer), denom);value = _mm256_add_ps(value, tmp1);numer = _mm256_mul_ps(numer, _mm256_mul_ps(origx, origx));float tmp2 = (float)((2 * j + 2) * (2 * j + 3));denom = _mm256_mul_ps(denom, _mm256_broadcast_ss(&tmp2));sign *= -1;}_mm256_store_ps(&result[i], value);}// Scalar program/*for (int i = 0; i < N; ++i){float value = x[i];float numer = x[i] * x[i] * x[i];int denom = 6;int sign = -1;for (int j = 1; j <= terms; ++j){value += sign * numer / denom;numer *= x[i] * x[i];denom *= (2 * j + 2) * (2 * j + 3);sign *= -1;}result[i] = value;}*/
}void print_MM(__m256 test)
{float out[8];_mm256_store_ps(&out[0], test);for (int i = 0; i < 8; ++i){cout << out[i] << "  ";}cout << endl;
}

在VS中创建CPP项目运行即可,其功能为利用泰勒展开近似计算sin(x)值,运行结果如下

二、Ubuntu中运行问题一:编译错误

将这份代码复制到Linux系统利用如下命令编译,出现错误

g++ filename.cpp -o filename


/usr/lib/gcc/x86_64-linux-gnu/9/include/avxintrin.h:878:1: error: inlining failed in call to always_inline ‘void _mm256_store_ps(float*, __m256)’: target specific option mismatch
878 | _mm256_store_ps (float *__P, __m256 __A)
vector_program.cpp:75:17: note: called from here
75 | _mm256_store_ps(out, test);

查阅多方资料/文档/博客,最终找到两个解决方法
方法一:使用编译命令

g++ filename.cpp -march=native -o filename

方法二:使用编译命令

g++ -mavx filename.cpp -o filename

三、Ubuntu运行问题二:Segmentation fault (core dumped)

使用上述编译命令正确编译后,运行无结果

再查阅多方资料/文档/博客,终于发现原因是因为内存不对齐,所使用的_mm256_load_ps()和_mm256_store_ps()等操作要求内存地址以32对齐。而直接定义来的float数组并非如此,可以直接输出变量地址进行验证

最终也找到两个解决方法

方法一:使用不严格对齐操作
_mm256_loadu_ps() 代替 _mm256_load_ps()
_mm256_storeu_ps() 代替_mm256_store_ps()
等等

方法二:定义变量时规定内存对齐
根据编译器的不同而有不同的具体要求,在本例中我使用GCC编译器,因而具体改动如下

__attribute__ ((aligned (32))) float x[8] = { 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 }, result[8];
__attribute__ ((aligned (32))) float out[8];

在这类数组定义前加上__attribute__ ((aligned (32)))

如果是MSVC编译器,则是__declspec(align(32))

四、成功运行结果

参考资料

AVX segmentation fault on linux – Stack Overflow
SSE/AVX加速时的内存对齐问题
c++ - 使用 AVX vector 警告编译旧版 GCC 代码
github.com/JustasMasiulis/xorstr/issues

AVX application for Linux | Linux中使用AVX指令集编程踩坑相关推荐

  1. linux 版本的scipy,Linux 系统中 SciPy (Python 3) 编程环境

    Linux 系统中 SciPy (Python 3) 编程环境 SciPy (pronounced "Sigh Pie") is a Python-based ecosystem ...

  2. Linux 系统中 SciPy (Python 3) 编程环境

    Linux 系统中 SciPy (Python 3) 编程环境 SciPy (pronounced "Sigh Pie") is a Python-based ecosystem ...

  3. linux下安装mysql5.7.11全纪录_简单几步在Linux环境下安装MySQL5.7(附踩坑记录)

    在Linux下安装MySQL可以说是每个开发者必备的知识 刚好我的服务器重装了一下 因此重新安装了MySQL 写下本文特此记录 下载MySQL的压缩包: 官网:https://dev.mysql.co ...

  4. Linux 环境下安装 MySQL,各种踩坑、疑难杂症 | 原力计划

    作者 | 红颜祸水nvn 来源 | CSDN博客,责编 | 夕颜 头图 | CSDN 下载自视觉中国 出品 | CSDN(ID:CSDNnews) 本文中,作者总结了在使用Linux CentOS 6 ...

  5. Qt5.13.2中配置opencv4.5.0踩坑记录

      目录 cmake编译opencv时速度过慢或超时 mingw32-make时报错 错误一 [modules\core\CMakeFiles\opencv_core.dir\build.make:1 ...

  6. 微信小程序中如何引用weUI(踩坑记录)

    众所周知WeUI 是一套同微信原生视觉体验一致的基础样式库,由微信官方设计团队为微信内网页和微信小程序量身设计,令用户的使用感知更加统一. 在初学小程序开发时,我也想使用WeUI进行我的小程序开发,但 ...

  7. android settext方法,Android中EditText setText方法的踩坑实战

    1.平平常常中就这样开始 某一天,我准备做一个搜索功能,这个搜索功能呢大概是在主活动A中,用EditText接收输入,当EditText监听到输入框中内容有变化,跳转到活动B中,活动B中准备有搜索历史 ...

  8. WSL2——Linux C中进程相关操作编程问题

    问题描述 1.lockf函数无效 https://shentuzhigang.blog.csdn.net/article/details/110878697 2.共享内存的系统调用异常 https:/ ...

  9. 【计算机网络】Linux环境中的TCP网络编程

    文章目录 前言 一.TCP Socket API 1. socket 2. bind 3. listen 4. accept 5. connect 二.封装TCPSocket 三.服务端的实现 1. ...

最新文章

  1. 技术图文:如何利用 C# 实现 误差反向传播 学习规则?
  2. arguments.callee查询调用b函数的是哪个函数
  3. Redis介绍 Java客户端操作Redis
  4. 学习之路三十一:Varchar和NVarchar的理解
  5. 阿里云对象存储OSS之通过URL形式进行图片处理
  6. Android使用addView动态加载布局文件
  7. Sereja and Brackets CodeForces - 380C (线段树+分治思路)
  8. 技术思考:也谈知识图谱平台中的数据流程与构建范式思考
  9. @import注解_Spring Boot 2 实战:@SpringBootApplication注解浅析
  10. android sqlcipher 加密,Android 数据库加密 SQLCipher使用方法
  11. python modbus类封装_Python | 面向对象程序设计来了!
  12. 探秘ReSharper 8新功能——XAML编辑
  13. 【备忘】Windows的命令行下设置网络代理
  14. python sys模块详解_python中os和sys模块的区别与常用方法总结
  15. QT4升级QT5调研报告
  16. Distance from a point to a hyperplane
  17. 开学倒计时,实验室里的这些准备工作你做完了吗?-LIMS2
  18. css动画:多个行星围绕中心恒星旋转
  19. 微端游戏启动器launcher的制作(序篇)
  20. Vue中如何根据svg内容显示图片

热门文章

  1. 服务器配置与软硬件推荐参考资料
  2. 利用Python网络爬虫获取分类图片,简单处理反爬教学
  3. 美光科技股票基本分析:经济背景、行业分析财政状况(盈利、EBITDA、PPE、DA等)预测计算DCF...
  4. 数字图像处理 张量分解的概念、发展及其应用
  5. 相见恨晚的68句话——每句话可以品半辈子,你有同感吗?
  6. 【学习记录】pubmed检索记录
  7. 是非人生 — 一个菜鸟程序员的5年职场路 第16节
  8. 对比学习范式是什么?代理任务和目标函数在对比学习中如何起作用?
  9. 集合(一)——认识集合
  10. 软文推广中如何选定关键词?