TigerSHARC DSP在信号处理系统中的应用

时间：2007-04-19

摘要：文中讨论了TiserSHARC DSP在信号处理系统中的几个应用问题。介绍了多片TigerSHARC DSP芯片构成的信号处理系统组成；估计了系统的运算量、所需的计算时间以及完成算法所需的DSP数目；讨论了DSP复位波形的要求以及与CPLD配置芯片的关系；说明了DSP的电源供电和功耗的计算方法。

关键词：TigerSHARC DSP；运算量；复位；功耗

随着人们对实时信号处理要求的不断提高和大规模集成电路的迅速发展，作为数字信号处理和标志的数字信号处理器ＤＳＰ芯片得到了快速的发展和应用。本文将介绍ＡｎａｌｏｇＤｅｖｉｃｅ公司的一款ＤＳＰ－ＴｉｇｅｒＳＨＡＲＣ在信号处理系统中的应用，并将对设计中的一些问题进行讨论说明。
１　系统设计及各部分功能简介

图１所示是一个信号处理系统的硬件框图。实际上，为了简化系统硬件，减少ＤＳＰ片间连线，该系统的６个ＤＳＰ以松耦合的链路方式进行连接。首先由ＤＳＰ１通过外部ＤＭＡ方式读入中频解调后的Ｉ、Ｑ路数据，并由ＤＳＰ１对读入数据进行脉冲压缩匹配滤波，脉冲压缩后进行二次对消，以消除固定杂波。再由ＤＳＰ１将处理后的数据按距离单元段通过链路口０、１分别发送给ＤＳＰ２、ＤＳＰ４。ＤＳＰ２、ＤＳＰ４主要进行目标检测ＭＴＤ，并采用滑窗加权ＦＦＴ实现窄带多谱勒滤波器组。当ＤＳＰ２、ＤＳＰ４完成ＭＴＤ后 再将对应每个距离单元的１６个输出数据通过链路口分别送到ＤＳＰ３和ＤＳＰ５。之后，由ＤＳＰ３、ＤＳＰ５先进行求模运算，再进行恒虚警计算。ＤＳＰ３、ＤＳＰ５处理后的数据经链路口传输到ＤＳＰ６，在ＤＳＰ６接到该信号后，先对距离单元内１６个输出进行门限处理，并选择其中杂波剩余值作为本单元的输出。门限处理后，ＤＳＰ６还应完成视频积累，视频积累采用累加求平均的方式，这样可以避免反馈积累的拖尾现象。视频数据以ＤＭＡ方式通过外部口送出，并分别加到Ｄ／Ａ与ＤＳ９６Ｆ１７２等输入端，前者产生模拟视频，后者以差分形式送到显示单元。
图1
２　ＴｉｇｅｒＳＨＡＲＣＤＳＰ简介

ＴｉｇｅｒＳＨＡＲＣＤＳＰ是一款高性能的静态超标量数字信号处理器，该处理器专为大的信号处理和通信任务而在结构上进行了优化。由于该处理器将非常宽的存储带宽和双运算模块结合在一起，从而建立了数字信号处理器性能的新标准。ＴｉｇｅｒＳＨＡＲＣ静态超标量结构使ＤＳＰ每周期能够执行多达４条指令、２４个１６－ｂｉｔ定点运算和６个浮点运算。

该ＴｉｇｅｒＳＨＡＲＣＤＳＰ器件在三条相互独立的１２８ｂｉｔ宽度的内部数据总线中，每条可连接三个２Ｍｂｉｔ内部存储器中的一个，并可提供４个字的数据、指令及Ｉ／Ｏ访问和１２Ｇｂｙｔｅｓ／ｓ的内部存储器带宽。当其运行在２５０ＭＨｚ时，ＡＤＳＰ－ＴＳ１０１Ｓ的内核指令周期为４ｎｓ，同时可以提供２０亿次的４０ｂｉｔＭＡＣ运算或者５００万次８０ｂｉｔＭＡＣ运算。

ＴｉｇｅｒＳＨＡＲＣＤＳＰ器件的主要性能如下：

●运行速度为２５０ＭＨｚ，指令周期为４ｎｓ；

●带有６Ｍｂｉｔｓ片内ＳＲＡＭ；

●带有双运算模块每个内部包含有一个ＡＬＵ、一个乘法器、一个移位器和一个寄存器组；

●具有一个外部端口、４个链路口和可编程标志引脚、ＳＤＲＡＭ控制器和２个定时器；

●与用于片上仿真的ＩＥＥＥ１１４９．１标准的ＪＴＡＧ接口兼容；

●可通过共享总线无缝连接多达８个Ｔｉｇｅｒ-ＳＨＡＲＣＤＳＰ的片内总线仲裁。
３　系统运算量分析及计算时间估计

根据信号处理任务，下面具体分析系统各组成部分的运算量，并估计所需的时间，并确定完成算法所需的ＤＳＰ数目（总信号处理周期小于１０００μｓ）。

３．１脉冲压缩

图２所示是采用ＦＦＴ技术实现脉冲压缩滤波的算法框图。若总距离单元数为１２００，则需做２０４８点复数ＦＦＴ。当２０４８点复数ＦＦＴ完成后，还必须和预先存储好的匹配滤波器系数Ｈｋ相乘。一般需要做２０４８个复数乘法，相乘结果还需做２０４８点复数ＩＦＦＴ以获得脉冲压缩结果。ＴｉｇｅｒＳＨＡＲＣＤＳＰ做２０４８点复数ＦＦＴＩＦＦＴ大约需要１００μｓ工作在２５０ＭＨｚ。因此，可以充分利用ＴｉｇｅｒＳＨＡＲＣＤＳＰ的双运算块和单指令多数据ＳＩＭＤ特点同时进行两个距离单元的复数乘法，这种方法完成２０４８个复数乘法仅需２５μｓ。

固定杂波对消可以采用二次对消器来实现，其差分方程为：

ｙ（ｎ）＝ｘ（ｎ）－２ｘ（ｎ－１）＋ｘ（ｎ－２）

对于每个距离单元，它都需要取三个数、做两个减法、一个加法并存储一个数，这样，完成１２００个距离单元的二次对消大约需要２５μｓ。因此，脉冲压缩和固定杂波二次对消只需要一片ＤＳＰ便可完成，而且还有较多时间富余。

３．２动目标检测（ＭＴＤ）

用ＦＦＴ实现窄带多谱勒滤波器组时，为了降低旁瓣，可在系统中采用滑窗加权ＦＦＴ的方法，权系数为海明权，即：

Ｓ（ｋ）＝ＦＦＴ{Ｓ(ｎ)Ｗ(ｎ)}　　ｎ＝０,１,２,…Ｎ－１

其中Ｓ(ｎ)为雷达回波序列,而Ｗ(ｎ)则可用下式表示：

Ｗ(ｎ)＝０．５４－０．４６ｃｏｓ[２πｎ／（Ｎ－１）]

　ｎ＝０,１,２,…Ｎ－１

ＴｉｇｅｒＳＨＡＲＣＤＳＰ做１６点加权复数ＦＦＴ大约需要８０个指令周期０．３２μｓ，因此，当距离单元数为１２００时，共需３８４μｓ。这样，此滑窗多谱勒滤波器组考虑到运算的辅助操作仅需要两片ＴｉｇｅｒＳＨＡＲＣＤＳＰ就可实现并行处理，且还有较多的富余时间。

３．３求模

求模可采用如下近似公式：

一般情况下，求模须对每个距离单元的１６个通道ＦＦＴ输出进行运算。ＴｉｇｅｒＳＨＡＲＣＤＳＰ做一个１６通道的求模运算需要０．５μｓ，距离单元数为１２００时，共需６００μｓ故可由两片ＴｉｇｅｒＳＨＡＲＣＤＳＰ并行处理。

３．４恒虚警

恒虚警算法框图如图３所示。

该算法可充分利用ＴｉｇｅｒＳＨＡＲＣＤＳＰ的双运算模块，同时并行处理两个距离单元的两个通道，完成１２００个距离单元的１６个通道的恒虚警计算共需５００μｓ，故可用ＤＳＰ３和ＤＳＰ４并行处理。

３．５积累

积累可采用简单累加求平均的方式，由于其计算量较少，因此，用一片ＴｉｇｅｒＳＨＡＲＣＤＳＰ实现仍有较大时间富余。

综上所述，由ＴｉｇｅｒＳＨＡＲＣＤＳＰ构成的高速信号处理系统总共仅需６片ＤＳＰ，即可对不同的距离单元段进行并行处理。
４　ＴｉｇｅｒＳＨＡＲＣＤＳＰ特殊的复位方式

ＴｉｇｅｒＳＨＡＲＣＤＳＰ的上电复位波形较为特殊，在设计时应充分重视，建议采用ＣＰＬＤ实现其复位。上电复位波形要求如图４所示。但应注意以下几点：

（１）ｔＳＴＡＲＴ＿ＬＯ在供电稳定之后必须至少大于１ｍｓ

（２）ｔＰＵＬＳＥ１＿ＨＩ必须大于５０个系统时钟周期，同时小于１００个系统时钟周期；

（３）ｔＰＵＬＳＥ２＿ＬＯ必须大于１００个系统时钟周期。

（４）在ＤＳＰ上电后，如需正常复位，其低电平持续时间必须大于１００个系统时钟周期。

本系统采用ＥＰ１Ｋ５０产生上电复位波形和时序控制。由于ＥＰ１Ｋ５０需要一个配置芯片，而且它和ＤＳＰ存在一个上电先后的问题。也就是说，在上电后，如果ＣＰＬＤ芯片完成配置文件的读入时，ＤＳＰ仍未上电稳定，则应充分延长Ｔｓｔａｒｔ＿ｌｏ的低电平时间，以避免ＤＳＰ上电未稳定而ＣＰＬＤ上电波形已结束。因此，应保证ＤＳＰ上电稳定先于ＣＰＬＤ芯片配置文件的读入，此问题在系统设计时应予以充分重视，否则ＤＳＰ将无法正常工作。
５　电源供电及功耗估计

ＴｉｇｅｒＳＨＡＲＣＤＳＰ有三个电源，其中数字３．３Ｖ为Ｉ／Ｏ供电；数字１．２Ｖ为ＤＳＰ内核供电；模拟１．２Ｖ为内部锁相环和倍频电路供电。ＴｉｇｅｒＳＨＡＲＣＤＳＰ要求数字３．３Ｖ和１．２Ｖ应同时上电。若无法严格同步，则应保证内核电源１．２Ｖ先上电，Ｉ／Ｏ电源３．３Ｖ后上电。本系统在数字３．３Ｖ输入端并联了一个大电容，而在数字１．２Ｖ输入端并联了一个小电容，其目的就是为了保证３．３Ｖ充电时间大于１．２Ｖ充电时间，以便很好地解决电源供电先后的问题。

５．１内核功耗估计

内核电流为１．２７７Ａ，该电流是ＤＳＰ进行单指令多数据（ＳＩＭＤ）方式下，４个１６位定点字乘加与两个四字读取并行操作以及进行由外部口到内部存储器ＤＭＡ操作所需的电流。实际上，ＤＳＰ内核电流大小还和内核工作频率有关，图５所示是其内核电流与频率的关系曲线。因此，供给ＤＳＰ内核电流可根据不同的并行处理任务和内核工作频率来确定。若并行处理较少，工作频率低，所需电流就小。这样，内核功耗为：

ＰＤＤ＝ＶＤＤ×ＩＤＤ＝１．２×１．２７７＝１．５３４Ｗ

５．２外部口功耗估计

外部口的功耗（对ＶＤＤ－ＩＯ）主要是输出引脚(例如数据线的某个位由高到低，或由低到高) 转换的功率消耗，而且该功耗与系统无关。由于这种转换的外部平均电流为０．１３７Ａ，因此，功耗为：

ＰＤＤ＿ＩＯ＝０．１３７０Ａ×３．３Ｖ＝０．４５Ｗ

６　结束语

本文介绍了多片ＴｉｇｅｒＳＨＡＲＣＤＳＰ在实时信号处理系统中的应用。该系统充分利用了ＴｉｇｅｒＳＨＡＲＣＤＳＰ高速的运算能力及数据吞吐量，可对不同的距离单元段进行并行处理。文中分析了系统的运算量、所需计算时间以及完成算法所需的ＤＳＰ数，并且讨论了ＤＳＰ应用过程中的复位，电源设计和功耗问题，因而具有一定的工程指导意义。实践表明，由ＴｉｇｅｒＳＨＡＲＣＤＳＰ构成的系统硬件结构简单，软件编写容易，且成本较低。目前该系统已成功用于某雷达系统。

上一篇：TMS320C32扩展异步串口的方法

下一篇：实时仿真与嵌入式系统