《计算机结构与程序优化.ppt》由会员分享,可在线阅读,更多相关《计算机结构与程序优化.ppt(116页珍藏版)》请在人人文库网上搜索。

1、计算机结构与程序优化,Introduction to Intel 64 Architectures Optimization,Main Purpose,处理器架构简介 SIMD指令介绍 (SSE /max(A,B),cmp A, B ; Condition jbe L30 ; Conditional branch mov ebx A ; ebx holds X jmp L31 ; Unconditional branch L30: mov ebx, B L31:,xor ebx, ebx ; Clear ebx cmp A, B setle bl ; When ebx = 0 or 1 ; O。

2、R the complement condition sub ebx, 1 ; ebx=11.11 or 00.00 and ebx, A ; ebx=A-B or 0 add ebx, B ; ebx=A or B,Branch Prediction,Spin-Wait and Idle Loops All branch targets should be 16-byte aligned Unroll small loops until the overhead of the branch and induction variable accounts (generally) for les。

3、s than 10%.,Fetch iBUFF_SIZE;i+) sum+=buffi;,Sandy Bridge only,Traversing through pointers,L1D Cache Bank Conflict,L1D Cache Bank Conflict (continue),Minimize Register Spills,Data Layout Optimizations,Pad data structures defined in the source code so that every data element is aligned to a natural o。

4、perand size address boundary,Decomposing an Array,Locality Enhancement,Optimization techniques such as blocking, loop interchange, loop skewing, and packing are best done by the compiler. Optimize data structures either to fit in one-half of the first-level cache or in the second-level cache; turn o。

5、n loop optimizations in the compiler to enhance locality for nested loops,Minimizing Bus Latency,If there is a blend of reads and writes on the bus, changing the code to separate these bus transactions into read phases and write phases can help performance software should favor data access patterns 。

6、that result in higher concentrations of cache miss patterns,Non Temporal Store Bus-traffic,The data transfer rate for bus write transactions is higher if 64 bytes are written out to the bus at a time,Prefetching,First-Level Data Cache Prefetching Avoid Fetch Un-needed Lines Prefetching for 2-Level C。

7、ache,1st-Level DCache Prefetching,Avoid Fetch Un-needed Lines,For L1 Hardware Prefetch,Method 1: Organize the data so consecutive accesses can usually be found in the same 4-KByte page. Access the data in constant strides forward or backward IP Prefetcher. Method 2: Organize the data in consecutive 。

8、lines. Access the data in increasing addresses, in sequential cache lines.,Prefetching for 2-Level Cache,Streamer Loads data or instructions from memory to the second-level cache. To use the streamer, organize the data in blocks of 128 bytes, aligned on 128 bytes,Example of Latency Hiding,Memory Acc。

9、ess Latency and Execution Without Prefetch,Example of Latency Hiding,Memory Access Latency and Execution With Prefetch,Spread Prefetch Instructions,Rearranging PREFETCH instructions may yield a noticeable speedup for the code which stresses the cache resource,Multi-core 2950 Tick 48 bit; max Latency。

10、 15000 tick,Using bit wizardry,Matters Computational-Ideas, Algorithms, Source Code, Jorg Arndt Hackers Delight, Henry S. Warren, Jr. HAKMEM - AIM-239, MIT,QuadCore Intel Core 2 Quad Q9550, 2833 MHz Throughput 3.12 Gbit/s Break out throughput 1090 Tick 288 bit; 212 Tick 48 bit; max Latency 1200 tick。

11、,Look up table,QuadCore Intel Core 2 Quad Q9550, 2833 MHz Throughput 19.1 Gbit/s Break out throughput 280 Tick 288 bit; 68 Tick 48 bit; max Latency 500 tick,A Painless Guide to CRC Error Detection Algorithms Index V3.00, Ross N. williams,Decoder,Viterbi Algorithm Original Program C Optimization SIMD Optimization,Viterbi Algorithm,Viterbi Algorithm,Original Program,QuadCore Intel Core 2 Quad Q9550, 2833 MHz Throughput 11.1 Mbit/s Break out throughput 280K Tick 288 bit; 68K Tick 48 bit; max Latency 300K tick,SIMD Optimization,SIMD Optimization (continue),The End,Thank you。

计算机结构优化,计算机结构与程序优化.ppt相关推荐

  1. Java性能优化方面的程序优化知识点归纳,希望对你有所帮助

    常用的程序设计优化技巧: 1.字符串优化处理 (1)String 类的特点:不变性.针对常量池的优化( String.intern() 方法的意义) (2)subString 方法的内存泄漏 : (3 ...

  2. 《Java程序性能优化》之设计优化

    豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标 执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...

  3. 调整了一下JVM内存,程序快了700%,Java程序优化笔记

    Java程序性能优化是一个永远逃不开的话题,优化无处不在!一个偶然间,小编得到了一份Java程序性能优化的笔记,小编读完这份笔记后大为惊叹,实在是写的太好了,不忍独乐乐,于是把这份笔记免费分享出来,供 ...

  4. 关于程序优化的一些思考

    目  录 第1章 实验基本信息 1.1 实验目的 1.2 实验环境与工具 1.2.1 硬件环境 1.2.2 软件环境 1.2.3 开发工具 1.3 实验预习 第2章 实验预习 2.1 程序优化的十大目 ...

  5. 中国电子学会图形化四级编程题:程序优化

    「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复[Scratch]或[Python],即可进入.如果加入了之前的社群不需要重复加入. 我们将有关编程题目的教学视频已经发布到抖 ...

  6. 【青少年编程】【四级】绘图程序优化

    「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复[Scratch]或[Python],即可进入.如果加入了之前的社群不需要重复加入. 微信后台回复"资料下载&quo ...

  7. ESP32检测调制激光信号程序优化

    ▌01 调制激光检测 1.裁判系统要求 在 测试ESP32S基本模块的功能,并验证是否可以应用在AI智能车竞赛检测激光信号中 测试了基于 ESP32 模块来检测 全国大学生智能车竞赛 中的 室内AI视 ...

  8. 推荐CUDA程序优化的15个策略

    推荐CUDA程序优化的15个策略 0条评论 2011-07-06 09:48   来源:潇湘学子岳麓生的博客 作者: 潇湘学子岳麓生 编辑: 王玉圆 [IT168 技术]在<CUDA程序优化策略 ...

  9. CUDA程序优化技巧

    CUDA程序优化技巧 2013-11-18 23:41 1469人阅读 评论(4) 收藏 举报 分类: CUDA(24) 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 有如下 ...

最新文章

  1. 练习2-13 求N分之一序列前N项和 (15 分)
  2. 中台辨析:架构的演进趋势
  3. python 学习笔记(3)-转载
  4. mysql日期处理的一些实现
  5. 安装VS 2008 EXPRESS出现无法读取deffactory.dat错误
  6. 数据库——环境初建改端口和密码(转)
  7. 为什么a*算法采用哈密尔顿距离作为启发函数比不在位数为启发函数的性能要好?_KDD2019: 使用神经网络为A*搜索算法赋能 --以个性化路径推荐为例...
  8. JMeter对数据库的更新操作
  9. U盘安装CentOS Linux图文详解
  10. “校园知网”5月8日冲刺计划书
  11. Android 用 platform.pk8 和 platform.x509.pem 生成 keystore 系统签名文件
  12. 关于计算机信息技术论文,信息技术论文
  13. 纯C#实现的DHT爬虫和磁力搜索引擎 - btcherry.com
  14. GB/T 36964-2018《软件工程 软件开发成本度量规范》国家标准正式发布...
  15. 研究生英语期末复习(Unit3)
  16. P3387 【模板】缩点 洛谷 java题解 连通图+拓扑排序
  17. HTML5与视频传输_拔剑-浆糊的传说_新浪博客
  18. TS流PAT、PMT、ES、PES分析及解析代码
  19. 什么是 CI 持续集成
  20. sigrity前仿真,DDR地址线仿真。

热门文章

  1. SQL Server on Linux的文件和目录结构
  2. C# 读取硬盘信息类
  3. mysql8.0.12插件_MySQL8.0.12 安装及配置
  4. layui弹出层使用(layer.alert / layer.open / layer.prompt )
  5. 115怎么利用sha1下载东西_618“甩”度娘,拥抱115,体验和价格才是王道
  6. 软件测试推荐专业,软件测试专业老师推荐信
  7. php ftp 创建文件夹失败,PHP使用FTP函数创建目录
  8. 一个几何级数的无限和思考
  9. 如何有效利用碎片时间?这里有个办法
  10. 荐号 | 11个人工智能与大数据相关的个人、企业优质号