今天给大侠带来FPGA设计基本原则及思想,话不多说,上货。

十三、常用设计思想与技巧

乒乓操作、串并转换、流水线操作、异步时钟域数据同步。

1、乒乓操作

“乒乓操作”是一个常常应用于数据流控制的处理技巧,典型的乒乓操作方法如下图所示。

乒乓操作的处理流程为:输入数据流通过“输入数据选择单元”将数据流等时分配到两个数据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口 RAM(DPRAM)、单口 RAM(SPRAM)、FIFO 等。

在第一个缓冲周期,将输入的数据流缓存到“数据缓冲模块 1”;

在第 二 个缓冲周期,通过“输入数据选择单元”的切换,将输入的数据流缓存到“数据缓冲模块 2”,同时将“数据缓冲模块 1”缓存的第1 个周期数据通过“输入数据选择单元”的选择,送到“数据流运算处理模块”进行运算处理;

在第 三 个缓冲周期通过“输入数据选择单元”的再次切换,将输入的数据流缓存到“数据缓冲模块 1”,同时将“数据缓冲模块 2”缓存的第 2 个周期的数据通过“输入数据选择单元”切换,送到“数据流运算处理模块”进行运算处理。如此循环。

乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲与处理。

乒乓操作的第二个优点是可以节约缓冲区空间。比如在 WCDMA 基带应用中,1 个帧是由 15个时隙组成的,有时需要将 1 整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数据缓存起来,然后延时 1 个时隙进行处理。这时缓冲区的长度是1 整帧数据长,假设数据速率是 3.84Mbps,1 帧长 10ms,则此时需要缓冲区长度是 38400 位。

如果采用乒乓操作,只需定义两个能缓冲 1 个时隙数据的 RAM(单口 RAM 即可)。当向一块 RAM 写数据的时候,从另一块 RAM 读数据,然后送到处理单元处理,此时每块 RAM 的容量仅需 2560 位即可,2 块 RAM 加起来也只有 5120 位的容量。

另外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图 2所示,数据缓冲模块采用了双口 RAM,并在 DPRAM 后引入了一级数据预处理模块,这个数据预处理可以根据需要的各种数据运算,比如在 WCDMA 设计中,对输入数据流的解扩、解扰、去旋转等。假设端口 A 的输入数据流的速率为 100Mbps,乒乓操作的缓冲周期是 10ms。以下分析各个节点端口的数据速率。

A 端口处输入数据流速率为 100Mbps,在第1 个缓冲周期 10ms 内,通过“输入数据选择单元”,从 B1 到达 DPRAM1。B1 的数据速率也是 100Mbps,DPRAM1 要在 10ms 内写入 1Mb 数据。同理,在第 2 个 10ms,数据流被切换到 DPRAM2,端口 B2 的数据速率也是 100Mbps,DPRAM2在第 2 个 10ms 被写入 1Mb 数据。在第3 个 10ms,数据流又切换到 DPRAM1,DPRAM1 被写入1Mb 数据。

仔细分析就会发现到第三个缓冲周期时,留给DPRAM1读取数据并送到“数据预处理模块1”的时间一共是 20ms。有的工程师困惑于 DPRAM1 的读数时间为什么是 20ms,这个时间是这样得来的:

首先,在在第二个缓冲周期向 DPRAM2 写数据的 10ms 内,DPRAM1 可以进行读操作;另外,在第一个缓冲周期的第 5ms 起(绝对时间为 5ms 时刻),DPRAM1 就可以一边向 500K 以后的地址写数据,一边从地址 0 读数,到达 10ms 时,DPRAM1 刚好写完了 1Mb 数据,并且读了 500K 数据,这个缓冲时间内 DPRAM1 读了 5ms;在第三个缓冲周期的第 5ms 起(绝对时间为 35ms 时刻),同理可以一边向 500K 以后的地址写数据一边从地址0 读数,又读取了5 个ms,所以截止 DPRAM1 第一个周期存入的数据被完全覆盖以前,DPRAM1 最多可以读取 20ms时间,而所需读取的数据为 1Mb,所以端口 C1 的数据速率为:1Mb/20ms=50Mbps。

因此,“数据预处理模块 1”的最低数据吞吐能力也仅仅要求为 50Mbps。同理,“数据预处理模块 2”的最低数据吞吐能力也仅仅要求为 50Mbps。

换言之,通过乒乓操作,“数据预处理模块”的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的 1/2。

通过乒乓操作实现低速模块处理高速数据的实质是:通过 DPRAM 这种缓存单元实现了数据流的串并转换,并行用“数据预处理模块 1”和“数据预处理模块 2”处理分流的数据,是面积与速度互换原则的体现。

2、串并转换

串并转换是 FPGA 设计的一个重要技巧,它是数据流处理的常用手段,也是面积与速度互换思想的直接体现。

串并转换的实现方法多种多样,根据数据的排序和数量的要求,可以选用寄存器、RAM 等实现。

前面在乒乓操作的图例中,就是通过 DPRAM 实现了数据流的串并转换,而且由于使用了 DPRAM,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存器完成串并转换。如无特殊需求,应该用同步时序设计完成串并之间的转换。

比如数据从串行到并行,数据排列顺序是高位在前,可以用下面的编码实现:  prl_temp<={prl_temp,srl_in};  其中,prl_temp 是并行输出缓存寄存器,srl_in 是串行数据输入。对于排列顺序有规定的串并转换,可以用 case 语句判断实现。对于复杂的串并转换,还可以用状态机实现。串并转换的方法比较简单,在此不必赘述。

3、流水线操作

首先需要声明的是,这里所讲述的流水线是指一种处理流程和顺序操作的设计思想,并非FPGA、ASIC 设计中优化时序所用的“Pipelining”。

流水线处理是高速设计中的一个常用设计手段。如果某个设计的处理流程分为若干步骤,而且整个数据处理是“单流向”的,即没有反馈或者迭代运算,前一个步骤的输出是下一个步骤的输入,则可以考虑采用流水线设计方法来提高系统的工作频率。

流水线设计的结构示意图如图 3 所示。其基本结构为:将适当划分的 n 个操作步骤单流向串联起来。流水线操作的最大特点和要求是,数据流在各个步骤的处理从时间上看是连续的,如果将每个操作步骤简化假设为通过一个 D 触发器(就是用寄存器打一个节拍),那么流水线操作就类似一个移位寄存器组,数据流依次流经 D 触发器,完成每个步骤的操作。流水线设计时序如下图所示。

流水线设计的一个关键在于整个设计时序的合理安排,要求每个操作步骤的划分合理。如果前级操作时间恰好等于后级的操作时间,设计最为简单,前级的输出直接汇入后级的输入即可;如果前级操作时间大于后级的操作时间,则需要对前级的输出数据适当缓存才能汇入到后级输入端;如果前级操作时间恰好小于后级的操作时间,则必须通过复制逻辑,将数据流分流,或者在前级对数据采用存储、后处理方式,否则会造成后级数据溢出。

在 WCDMA 设计中经常使用到流水线处理的方法,如 RAKE 接收机、搜索器、前导捕获等。流水线处理方式之所以频率较高,是因为复制了处理模块,它是面积换取速度思想的又一种具体体现。

4、异步时钟域数据同步

异步时钟域数据同步是指如何在两个时钟不同步的数据域之间可靠地进行数据交换的问题。数据时钟域不同步主要有两种情况:一是两个域的时钟频率相同,但是相差不固定,或者相差固定但是不可测,简称为同频异相问题。二是两个时钟频率根本不同,简称异频问题。

不推荐的异步时钟域两种操作方法:一种是通过增加Buffer或者其他门延时来调整采样;另一种是盲目使用时钟正负沿调整数据采样。

数据接口的同步化,数据接口的同步是FPGA设计的一个常见问题,也是一个重点和难点,很多设计不稳定都是源于数据接口的同步有问题。

在电路图设计阶段,一些工程师手工加入 BUFT 或者非门调整数据延迟,从而保证本级模块的时钟对上级模块数据的建立、保持时间要求。还有一些工程师为了有稳定的采样,生成了很多相差 90 度的时钟信号,时而用正沿打一下数据,时而用负沿打一下数据,用以调整数据的采样位置。这两种做法都十分不可取,因为一旦芯片更新换代或者移植到其它芯片组的芯片上,采样实现必须重新设计。而且,这两种做法造成电路实现的余量不够,一旦外界条件变换(比如温度升高),采样时序就有可能完全紊乱,造成电路瘫痪。

下面简单介绍几种不同情况下数据接口的同步方法:

1、 输入、输出的延时(芯片间、PCB布线、一些驱动接口元件的延时等)不可测,或者有可能变动的条件下,如何完成数据同步?     

对于数据的延迟不可测或变动,就需要建立同步机制,可以用一个同步使能或同步指示信号。另外,使数据通过 RAM 或者 FIFO 的存取,也可以达到数据同步目的。

把数据存放在RAM或FIFO的方法如下:将上级芯片提供的数据随路时钟作为写信号,将数据写入 RAM 或者 FIFO,然后使用本级的采样时钟(一般是数据处理的主时钟)将数据读出来即可。这种做法的关键是数据写入 RAM 或者 FIFO 要可靠,如果使用同步 RAM 或者 FIFO,就要求应该有一个与数据相对延迟关系固定的随路指示信号,这个信号可以是数据的有效指示,也可以是上级模块将数据打出来的时钟。对于慢速数据,也可以采样异步 RAM 或者 FIFO,但是不推荐这种做法。

数据是有固定格式安排的,很多重要信息在数据的起始位置,这种情况在通信系统中非常普遍。通讯系统中,很多数据是按照“帧”组织的。而由于整个系统对时钟要求很高,常常专门设计一块时钟板完成高精度时钟的产生与驱动。而数据又是有起始位置的,如何完成数据的同步,并发现数据的“头”呢?

数据的同步方法完全可以采用上面的方法,采用同步指示信号,或者使用 RAM、FIFO 缓存一下。找到数据头的方法有两种,第一种很简单,随路传输一个数据起始位置的指示信号即可,对于有些系统,特别是异步系统,则常常在数据中插入一段同步码(比如训练序列),接收端通过状态机检测到同步码后就能发现数据的“头”了,这种做法叫做“盲检测”。上级数据和本级时钟是异步的,也就是说上级芯片或模块和本级芯片或模块的时钟是异步时钟域的。

前面在输入数据同步化中已经简单介绍了一个原则:如果输入数据的节拍和本级芯片的处理时钟同频,可以直接用本级芯片的主时钟对输入数据寄存器采样,完成输入数据的同步化;如果输入数据和本级芯片的处理时钟是异步的,特别是频率不匹配的时候,则只有用处理时钟对输入数据做两次寄存器采样,才能完成输入数据的同步化。需要说明的是,用寄存器对异步时钟域的数据进行两次采样,其作用是有效防止亚稳态(数据状态不稳定)的传播,使后级电路处理的数据都是有效电平。但是这种做法并不能保证两级寄存器采样后的数据是正确的电平,这种方式处理一般都会产生一定数量的错误电平数据。所以仅仅适用于对少量错误不敏感的功能单元。

为了避免异步时钟域产生错误的采样电平,一般使用 RAM、FIFO 缓存的方法完成异步时钟域的数据转换。最常用的缓存单元是 DPRAM,在输入端口使用上级时钟写数据,在输出端口使用本级时钟读数据,这样就非常方便的完成了异步时钟域之间的数据交换。

2、设计数据接口同步是否需要添加约束?        

建议最好添加适当的约束,特别是对于高速设计,一定要对周期、建立、保持时间等添加相应的约束。 这里附加约束的作用有两点:

1)、 提高设计的工作频率,满足接口数据同步要求。通过附加周期、建立时间、保持时间等约束可以控制逻辑的综合、映射、布局和布线,以减小逻辑和布线延时,从而提高工作频率,满足接口数据同步要求。

2)、 获得正确的时序分析报告。几乎所有的 FPGA 设计平台都包含静态时序分析工具,利用这类工具可以获得映射或布局布线后的时序分析报告,从而对设计的性能做出评估。静态时序分析工具以约束作为判断时序是否满足设计要求的标准,因此要求设计者正确输入约束,以便静态时序分析工具输出正确的时序分析报告。

Xilinx 和数据接口相关的常用约束有 Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE和OFFSET_OUT_AFTER等;Altera与数据接口相关的常用约束有Period、tsu、tH、tco 等。

END

后续会持续更新,带来Vivado、 ISE、Quartus II 、candence等安装相关设计教程,学习资源、项目资源、好文推荐等,希望大侠持续关注。

大侠们,江湖偌大,继续闯荡,愿一切安好,有缘再见!

精彩推荐

《模拟电子技术基础》第五版 童诗白 电子版

数字电子技术基础(第六版)教材 闫石 电子版

时序分析理论和timequest使用_中文电子版

欢迎加入FPGA技术江湖交流群!

续:FPGA设计基本原则及设计思想相关推荐

  1. FPGA设计篇之流水线思想

    FPGA设计篇之流水线思想 一.写在前面 二.正文开始 2.1举个栗子 2.2.1情况一(组合逻辑) 2.1.2情况二(流水线设计) 2.1.4 小总结 2.2举第二个栗子 写在最后 一.写在前面   ...

  2. 并行算法设计基本原则

    并行算法是并行计算的基础,与实现技术相结合,为高效率使用并行计算机提供解决方案.其基本原则简述如下: 1 与体系相结合 常见的并行计算的硬件载体有FPGA.GPU.多核CPU(ARM.x86).DSP ...

  3. (多图) 基于FPGA的FIR数字滤波器设计与仿真

    1 引言 实现数字化是控制系统的重要发展方向,而数字信号处理已在通信.语音.图像.自动控制.雷达.军事.航空航天等领域广泛应用.数字信号处理方法通常涉及变换.滤波.频谱分析.编码解码等处理.数字滤波是 ...

  4. 基于FPGA数字时钟的设计(附源码)

    大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分.大侠可以关注"FPGA技术江湖"微信公众号,在"闯荡江湖"."行侠仗义"栏里获取其 ...

  5. FPGA中高时钟频率计数器设计

    FPGA中高时钟频率计数器设计 题目描述:在一个高速项目中,我的时钟当时达到了400MHz,在此极高时钟速率下,计时/计数counter-计数器逻辑在综合布局布线时也出现了时序问题,即使是换了加法操作 ...

  6. 基于FPGA的信号发生器的设计

    基于FPGA的信号发生器的设计 首先先要介绍的是本设计的主芯片是ALTERA的一款芯片,芯片名称是EP2C5T144C8N.该芯片的LE单元有4608个,PLL锁相环具有2个,IO口管脚具有142个, ...

  7. 电子电路设计基本概念100问(三)【学习目标:原理图、PCB、阻抗设计、电子设计基本原则、基本原器件等】

    笔者电子信息专业硕士毕业,获得过多次电子设计大赛.大学生智能车.数学建模国奖,现就职于南京某半导体芯片公司,从事硬件研发,电路设计研究.对于学电子的小伙伴,深知入门的不易,特开次博客交流分享经验,共同 ...

  8. 编程思想-模块化-模块化设计:模块化设计

    ylbtech-编程思想-模块化-模块化设计:模块化设计 模块化设计,简单地说就是程序的编写不是开始就逐条录入计算机语句和指令,而是首先用主程序.子程序.子过程等框架把软件的主要结构和流程描述出来,并 ...

  9. FPGA零基础学习:基于FPGA的多路选择器设计(附代码)

    FPGA零基础学习:基于FPGA的多路选择器设计(附代码) 大侠好,欢迎来到FPGA技术江湖.本系列将带来FPGA的系统性学习,从最基本的数字电路基础开始,最详细操作步骤,最直白的言语描述,手把手的& ...

  10. CPLD/FPGA的UART接口设计之系统时钟(晶振)和波特率关系

    UART(UniversalAsynchronous ReceiverTransmitter,通用异步收发器)是一种广泛使用的异步串行数据通信协议.目前大多数MCU.串口通信IC等芯片或模块均支持UA ...

最新文章

  1. docker监控系统
  2. 用db-RDA进行微生物环境因子分析-“ggvegan“介绍
  3. erlang精要(3)-变量、原子与布尔代数
  4. 写一个 panic blame 机器人
  5. cron每两个小时_crontab 每隔 1 小时 2 小时的执行 job 写法
  6. 某游戏中有轰炸机、直升机、重型坦克、轻型坦克、飞行兵、步兵等六大兵种
  7. python:base64与图片的互转
  8. pix4d计算机配置速度,实测大疆智图(DJI Terra)与Pix4D,Smart3D正射三维成果对比...
  9. 微信小程序选项卡切换
  10. js去掉字符串第一位和最后一位
  11. DragonFly BSD 4.2发布
  12. 在线读书——孙天泽(嵌入式设计及Linux驱动开发指南——基于ARM9处理器)
  13. 老徐WEB:js入门学习 - javascript函数和闭包
  14. 计算机提高游戏运行速度的方法,怎么提高游戏运行速度
  15. python拍七游戏代码_拍七数字游戏 - Johannes-Jensen - 博客园
  16. BUUCTF:[BJDCTF2020]藏藏藏
  17. 搭建STC89C51工程模板
  18. Vue的patch算法(了解)
  19. 运动助手卡密增加了,周卡来领取!
  20. 315维权大数据报告:手机爆炸事件仍在发生,国民安全受到严重威胁!

热门文章

  1. 手机点餐系统概述_餐馆点菜系统概要设计说明书.doc
  2. 微信支付接口 java服务器,JAVA微信支付接口开发——支付(示例代码)
  3. 树莓派小车简单的迷宫算法-基于Python设计
  4. 项目管理体验营day3:项目管理之沟通技巧
  5. 阿里电话面试被虐经历
  6. python 自动下载脚本_Python实现115网盘自动下载的方法
  7. rup软件测试案例,胖子说RUP - 软件测试网 _领测软件测试网站-中国软件测试技术第一门户...
  8. WebRtc与P2P
  9. 计算机网络及光纤通信实验教程,电子科技大学光纤通信视频教程
  10. c 语言入门自学app,C语言入门学习软件