ADSP-21535 Blackfin的MemDMA高速通信

时间：2007-05-27

ＡＤＳＰ－２１５３５ADSP-21535 Ｂｌａｃｋｆｉｎ是美国ＡＤ公司和Ｉｎｔｅｌ公司于２００１年底联合推出的一款定点ＤＳＰ，ＲＩＳＣ指令结构，运作高效，具有十分优异的性能。该ＤＳＰ具有３００ＭＨｚ的主频，２个４０ｂｉｔ的ＭＡＣ（乘加器）和２个３２ｂｉｔ的ＡＬＵ（算术逻辑单元），４个８ｂｉｔ的视频处理单元，１６个地址寻址单元。该ＤＳＰ内部集成了３０８ＫＢ的ＲＡＭ，并具有丰富的外部接口，如ＰＣＩ、ＵＳＢ、ＳＰＩ、同步和异步串口等。同时，芯片内部设计了看门狗和多种定时器，充分满足软件工程稳定性的设计要求。值得一提的是，２１５３５可以动态地控制电压输入，调整运行频率，减少芯片功耗，十分适用于移动产品的设计。

２００２年底，ＡＤ公司在中国开始大规模推广Ｂｌａｃｋｆｉｎ系列的ＤＳＰ，２１５３５成为该系列的旗舰产品。由于该ＤＳＰ推出时间不长，相关文献几乎没有报道；而且，在许多接口性能方面，ＡＤ公司也没有对其给出准确的指标。根据通常的设计经验可知，新产品通常在某些方面没有达到设计要求。笔者所设计的高速通信板数据交换速度必须达２０ＭＷｏｒｄ／ｓ以上，因此对该ＤＳＰ的高速通信必须进行准确仔细的评估和设计。
ＡＤＳＰ－２１５３５的内存访问支持Ｉ／Ｏ方式、内存映射和多种ＤＭＡ方式，其中ＭｅｍＤＭＡ（ＭｅｍｏｒｙｔｏｍｅｍｏｒｙＤＭＡ）方式是快的一种并行通信方式。因此，笔者在设计时选择了ＭｅｍＤＭＡ作为高速通信方式。由于２１５３５支持多种内存，因此在设计ＭｅｍＤＭＡ时，必须对２１５３５的内存管理有一个详细的了解。

１ＡＤＳＰ－２１５３５的内存管理

２１５３５的内存管理十分强大。它把存储器视为一个统一的４ＧＢ的地址空间，使用３２位地址。所有的资源，包括内部存储器、外部存储器、ＰＣＩ地址空间和Ｉ／Ｏ控制寄存器，都具有独立的地址空间。此地址空间的各部分存储器按照分级结构排列，以提供较高的性能价格比。一些快速、低延迟的存储器（如Ｌ１）的位置接近处理器，而低成本低性能的存储器远离。芯片内部的３０８ＫＢＲＡＭ中，其中Ｌ１（缓存）５２ＫＢ，Ｌ２（二级缓存）２５６ＫＢ；外部地址访问空间可以高达７６８ＭＢ，通过ＥＢＩＵ（ＥｘｔｅｒｎａｌＢｕｓＩｎｔｅｒｆａｃｅＵｎｉｔ，外部总线接口单元）进行管理。ＥＢＩＵ支持多种内存，如ＳＤＲＡＭ、ＳＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ、ＦＩＦＯ等。内存地址的具体配置空间如图１所示。

Ｌ１作为ＤＳＰ的缓存，可以与ＤＳＰ的内核一样，运行在３００Ｍｂｐｓ的高速上。它分为三部分：１６ＫＢ的ＩｎｓｔｒｕｃｔｉｏｎＲａｍ（指令存储器）、，两块１６ＫＢ的ＤａｔａＲａｍ（数据存储器）、４ＫＢ的ＳｃｒａｔｃｈｐａｄＲａｍ（中间结果缓存）。指令存储器既可以作为ＳＲＡＭ，也可以配置为４路联合设置的Ｃａｃｈｅ。数据存储器能够配置成双路联合设置的Ｃａｃｈｅ或者ＳＲＡＭ；中间结果缓存只能作为ＳＲＡＭ使用。指令缓存和数据缓存都可以通过ＤＭＡ方式灌入数据，但是对于中间结果缓存这种方式不能使用。

Ｌ２作为ＤＳＰ的二级缓存，是一个统一的指令和数据存储器，能够根据系统设计要求同时存放代码和数据。Ｌ２具有ＤＳＰ同样的带宽，但是延迟时间较长，访问Ｌ２单个独立的地址时系统需要经过７个周期的延时，这时它的访问速度在４２．８Ｍｂｐｓ左右。所以如果程序比较大，必须在Ｌ２中编写程序时，通常将Ｌ１配置为Ｌ２的Ｃａｃｈｅ，这样，速度可以大大加快。

２１５３５支持的片外存储器种类很多，值得一提的是它的ＳＤＲＡＭ控制器。２１５３５集成的ＳＤＲＡＭ控制器能够以ｆＳＣＬＫ（系统时钟，为时钟的若干分频）的速度，与多达４个Ｂａｎｋ的工业标准ＳＤＲＡＭ或者ＤＩＭＭ接口。每个Ｂａｎｋ可以配置为１６ＭＢ～１２８ＭＢ的存储器，符合ＰＣ１３３ＳＤＲＡＭ的标准。

存储器的ＤＭＡ控制器提供高带宽的数据传输能力，它能够在内部Ｌ１／Ｌ２存储器和外部存储器（包括ＰＣＩ存储空间）之间执行代码或者数据的块传输。

２ＤＭＡ寄存器的配置

为了描述ＭｅｍＤＭＡ序列，ＤＭＡ控制器使用一套名为描述子块（Ｄｅｓｃｒｉｐｔｏｒ）的参数。当需要后继的ＤＭＡ序列时，这些描述子块被链接起来。这样，一个ＤＭＡ序列完成时能够自动初始化下一个序列，并将其启动。如果不需启动下一个序列，只要将其指向一个内容为０的地址空间即可。如果下链接指向原描述子块，则ＤＭＡ完成后暂停。为访问整个ＡＤＳＰ－２１５３５的地址空间，源地址和目的地址描述子块采用了全３２位地址的基指针。两个描述子块均为５个字的连续空间，需要注意的是该连续空间必须定义在Ｌ２范围内。描述子块内包含的内容如图２所示。

ＭｅｍＤＭＡ规定，描述子块所在的首地址必须传入相关的寄存器。描述子块首地址的高１６位装入ＤＭＡ＿ＤＢＰ寄存器（ＤＭＡＤｅｓｃｒｉｐｔｏｒＢａｓｅＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ描述子块基地址寄存器）内。由于该寄存器严格限定必须在０ｘＦ０００～０ｘＦ００３，这就限定了源和目的地址描述子块只能定义在Ｌ２存储器内，并且高１６位地址相同。

描述子块首地址的低１６位放在两个寄存器中，源地址描述子块低１６位装入ＭＤＳ＿ＤＮＤ寄存器（ＳｏｕｒｃｅＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ源地址下一个描述子块寄存器），而目的地址描述子块低１６位装入ＭＤＤ＿ＤＮＤ寄存器（ＤｅｓｔｉｎａｔｉｏｎＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ目的地址下一个描述子块寄存器）。其说明如图３所示。

在描述子块的地址传入相应寄存器后，后面的四项先配置，然后设置项。也就是对管理ＤＭＡ启动参数的寄存器进行参数配置。两个配置寄存器的详细内容如图４所示。例如当目的地址寄存器为０ｘ８００３，源地址寄存器为０ｘ８００１时，传输的数据总长＝ＤＭＡ传输的长度×字。需要注意的是，虽然此时传输以１６位（字长）传输，但ＤＭＡ的带宽是３２位，剩下的带宽资源将被浪费。８位传输时，带宽资源利用率更低。

下面，以一个具体的３２位ＤＭＡ例子说明上面的描述子块和多个寄存器的使用方法。

３３２位ＤＭＡ的例程

Ｒ０．Ｈ＝０ｘ８００９； ／／ＤＭＡ源配置字，设置为３２位传输
Ｒ０．Ｌ＝０ｘ８００； ／／ＤＭＡ长度
Ｒ１．Ｌ＝０ｘ２０００； ／／ＤＭＡ源地址低１６位
Ｒ１．Ｈ＝０ｘｆ０００； ／／ＤＭＡ源地址高１６位，这里指向Ｌ２
Ｒ２．Ｌ＝ＲＡＭ＿ＲＥＡＤ； ／／ＤＭＡ源描述子块首地址
低十六位，ＤＭＡ读
Ｒ２．Ｈ＝０ｘ８００ｂ； ／／ＤＭＡ目的配置字，设置为３２位传输
Ｒ３．Ｌ＝０ｘ００００； ／／ＤＭＡ目的地址低１６位
Ｒ３．Ｈ＝０ｘｆｆ９０； ／／ＤＭＡ目的地址高１６位，这里指向
Ｌ１数据存储器－ＢａｎｋＢ
Ｒ４．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ； ／／ＤＭＡ目的描述子块首地址低
十六位，ＤＭＡ写
Ｐ０．Ｌ＝ＲＡＭ＿ＲＥＡＤ； ／／将３２位的源描述子块的地址
载入Ｐ０
Ｐ０．Ｈ＝ＲＡＭ＿ＲＥＡＤ；
Ｐ１．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ； ／／将３２位的目的描述子块的地
址载入Ｐ１
Ｐ１．Ｈ＝ＲＡＭ＿ＷＲＩＴＥ；
ＷＰ０＋０ｘ２ ＝Ｒ０； ／／将ＤＭＡ长度写入源描述块第
二个字中
Ｐ０＋０ｘ４ ＝Ｒ１； ／／将ＤＭＡ的３２位源起始地址
写入源描述块第三第四个字中
ＷＰ０＋０ｘ８ ＝Ｒ２．Ｌ； ／／将下一个源描述子块的地址
写入源描述块第五个字中
ＷＰ１＋０ｘ２ ＝Ｒ０； ／／将ＤＭＡ长度写入目的描述块
第二个字中
Ｐ１＋０ｘ４ ＝Ｒ３； ／／将ＤＭＡ的３２位目的起始地址
写入目的描述块第三第四个字中
ＷＰ１＋０ｘ８ ＝Ｒ４； ／／将下一个目的描述子块的地
址写入目的描述块第五个字中
ＷＰ０ ＝Ｒ０．Ｈ； ／／将ＤＭＡ源配置字写入源描述
块个字中
ＷＰ１ ＝Ｒ２．Ｈ； ／／将ＤＭＡ目的配置字写入目的
描述块个字中
Ｒ６＝Ｐ０； ／／将Ｐ０的值同时存在Ｒ６内
Ｐ２．Ｌ＝０ｘ３９０Ａ；／／将ＤＭＡ源描述子块配置寄存
器的地址传给Ｐ２
Ｐ２．Ｈ＝０ｘＦＦＣ０；
ＷＰ２ ＝Ｒ６．Ｌ； ／／将ＤＭＡ源描述子块所在地址
的低１６位传给Ｐ２指向的地方Ｐ３．Ｌ＝０ｘ４８８０； ／／将描述子块基地址寄存器的
地址传给Ｐ３
Ｐ３．Ｈ＝０ｘＦＦＣ０；
Ｗ[Ｐ３]＝Ｒ６．Ｈ； ／／将ＤＭＡ源描述子块所在地址
的高１６位传给基地址寄存器
Ｐ４．Ｌ＝０ｘ３８０Ａ；
Ｐ４．Ｈ＝０ｘＦＦＣ０； ／／将ＤＭＡ目的描述子块配置寄
存器的地址传给Ｐ４
Ｒ６＝Ｐ１； ／／将Ｐ１的值转存到Ｒ６
Ｗ[Ｐ４] ＝Ｒ６．Ｌ； ／／将目的描述子块所在地址的
低１６位传给配置目的地址寄存器

Ｐ５．Ｌ＝０ｘ３９０２；
Ｐ５．Ｈ＝０ｘＦＦＣ０； ／／将ＤＭＡ源地址配置寄存器所
在地址传给Ｐ５
Ｒ６＝Ｗ[Ｐ５]；
ＢＩＴＳＥＴ（Ｒ６，０）； ／／设置Ｒ６的位为１，表示
准备启动读ＤＭＡ
Ｉ０．Ｌ＝０ｘ３８０２；
Ｉ０．Ｈ＝０ｘＦＦＣ０； ／／将ＤＭＡ目的地址配置寄存器
的地址传给Ｉ０
Ｒ７．Ｌ＝Ｗ[Ｉ０]；
ＢＩＴＳＥＴ（Ｒ７，０）； ／／设置Ｒ７的位为１，表示
准备启动写ＤＭＡ
Ｗ[Ｐ５]＝Ｒ６； ／／将Ｒ６和Ｒ７的低１６位写入
两个配置寄存器中，真正启动ＤＭＡ
Ｗ[Ｉ０] ＝Ｒ７．Ｌ；

ＤＭＡ＿ＷＡＩＴ； ／／等待ＤＭＡ结束
Ｒ６＝Ｗ]Ｐ１]； ／／根据写描述子块个字的
位判断描述子块的所有权
ｃｃ＝ｂｉｔｔｓｔ（Ｒ６，１５）；
ＩＦｃｃＪＵＭＰＤＭＡ＿ＷＡＩＴ； ／／如果为１，表示还在ＤＭＡ
状态，继续判断，等待
ＲＴＳ；

．ａｌｉｇｎ４； ／／在Ｌ２空间范围内定义两个
描述子块，要求４个字节对齐
．ＢＹＴＥ２ＲＡＭ＿ＲＥＡＤ[５]；
．ａｌｉｇｎ４；
．ＢＹＴＥ２ＲＡＭ＿ＷＲＩＴＥ[５]；

值得注意的是，在上述ＤＭＡ例程中，笔者使用了查询等待方式，但中间完全可以插入其他指令，例如ＤＳＰ还可以同时作双乘加和两次３２位取数。只要不访问正在ＤＭＡ读写的地址区域，没有任何影响。这意味着，在系统ＤＭＡ的同时，ＤＳＰ可以同时进行其他操作，这一点对于提高ＤＳＰ的效率至关重要。
４各种内存空间的ＤＭＡ访问指标测试及分析

根据以上配置，笔者对ＡＤＳＰ－２１５３５ADSP-21535的ＤＭＡ性能进行了比较详尽的测试。测试数据如表１所示。

从表１中的实测数据可以看出，ＤＭＡ的速度均在１８．７Ｍ双字／秒以上，速度达４６．９Ｍ双字／秒，可以满足工程中高速采集的需要。从表中数据可以得出以下结论：
（１）ＤＭＡ双向速度不对称，将源地址和目的地址交换后，速度会发生变化；

（２）低速向高速区域传输时，要比反向传输快；

（３）同类区域ＤＭＡ一般比区域之间ＤＭＡ要慢。如Ｌ１ＤＭＡ到Ｌ１，比Ｌ１ＤＭＡ到Ｌ２和ＳＤＲＡＭ都要慢一些。其它区域也有类似现象。

（４）高速区域ＤＭＡ速度并不一定快，如Ｌ１区域ＤＭＡ速度总体表现反而。

上一篇：基于DSP的汽车减震弹簧故障诊断仪设计

下一篇：软件无线电在一号小卫星多功能地面站中应用