有利于嵌入式系统软件优化的混合编程介绍

时间:2018-11-02
ADSP-TS101S是美国ADI公司推出的一款具有极高性能的数字信号处理器(DSP)芯片,其专为大信号处理任务和通信应用进行了结构上的优化设计,在嵌人式信号处理中得到广泛应用。ADSP-TS101S的软件设计可以采用汇编语言、语言(C/C )或语言与汇编语言混合编程。完全采用汇编编程,执行效率高,但对于复杂算法编写难度大,开发周期长,可读性和可移植性差;而完全采用C编程虽然可以弥补汇编的缺陷,但是程序的执行效率相对较低,大概只有汇编程序的10%~20%,对于实时性要求很高的处理,如雷达信号处理,很难满足要求。采用混合语言编程,用c语言构建框架,用汇编完成运算量较大的处理模块及硬件底层管理,就可以把两者的优点有效地结合起来。C和汇编语言的混合编程有三种形式:一是对C程序编译后形成的汇编程序进行手工修改与优化;二是直接在C代码中插入汇编语句,只需在汇编语句两边加上双引号和括号,在括号前面加上标识“asm”,如asm(“汇编语句”);三是分别编写C程序和汇编程序,再独立编译成目标代码模块链接。种方法对程序可读性负面影响较大。第二种方法适用于C与汇编效率差异较大的情况,如进入中断的中断子程序等。第三种方法常用,需要遵循一些规定的接口规范和标准。
  1 混合编程的接口规范和标准
  ①在C/C 环境下,TigerSHARC定义了一套严格的寄存器规则,它分为三类:
  类是保留寄存器,j16~j25、k16~k25、xr24~xr31、yr24~yr31,共40个,作为编译系统库函数专门使用的寄存器。编写程序时应避免使用这些寄存器,以免误改了系统库函数。若在子程序中使用到,必须在被调用时保存,调用完后释放。
  第二类是堆栈专用寄存器,k26、27和j26、j27四个,这些寄存器在调用时都需要保护。
  第三类是高速暂存寄存器,包括除了以上两类寄存器以外的所有寄存器。用法和汇编中的普通寄存器是一样的,使用前不需要保存寄存器内容。
  在默认情况下,cjmp寄存器用作存放被调函数的返回地址,但在嵌套调用中,这个值会被修改。为了保证安全返回,一般把返回地址存放在堆栈顶偏移地址为0的地方。
  函数调用有时需要参数传递,通常,若参数少于5个,则通过寄存器传递,如表1所列。
 

  如果在C/C 调用函数中作了正确的函数返回声明,则被调用的汇编函数可使用寄存器j8、xr8和xr9返回有效值。j8用于返回整数或地址;xr9:8可提供双字结果返回。若返回值大于2个字长,则必须为它们分配存储空间,令j8为返回值,指向该空间的首地址即可。
  ②在C/C 中声明的全局变量及函数,汇编中加“一”前缀才能使用;在汇编中的对象必须用“一”前缀命名,并用。g10bal声明为全局变量,才可在C/C 中访问到。具体格式如表2所列。
  

  2 混合编程的调用和中断
  2.1 函数调用
  C编译器对函数调用有一系列严格的规则。除了特殊的运行支持函数外。任何函数与c函数互调都必须遵循这些规则。函数调用的标准运行模式为:①调用者将参数庄人堆栈。压入时按照反序进行,即右边的参数位于堆栈的顶部。②调用函数。③调用结束时,调用者将参数弹出堆栈并返回。整个过程离不开堆栈操作。函数调用中的堆栈结构示意图如图1所示。


    ADSP-TS101S的堆栈是一个先入后出存储区(如图1),用堆栈指针(j/k27)和帧指针(j/k26)来管理堆栈。调用函数时,编译器在运行栈中建立一个帧以存储信息,当前函数帧称为局部帧。j/k26指向当前函数的局部帧的开始,即栈底。j/k27指向栈顶,工作方式是向低地址变化。每调用函数,就建立一个新帧。C环境利用局部帧来实现如下功能:
  ①保护函数的返回地址及相关寄存器:把函数返回地址保存在j27 0的位置(栈顶),同时设置jZ6为j27-0x40(栈底),得到长度为64的栈区,并在栈区内保护相关寄存器。
  ②分配局部变量:在局部变量赋初值的时候,系统在堆栈内给它分配一个空间。
  ③传递函数参数:前4个参数传递给相应寄存器(见表1),后续参数按顺序装载到堆栈j27 0xC起始的空间中。注意,如果传递的参数是结构类型,则其所有元素将入栈。例:第五个参数是两元素的结构体,则元素一放于jZ7 0xC,元素二放于j27 0xD,汇编子程序在使用参数时只需从对应的位置上读取即可。
  C环境在调用C函数时自动管理这些操作,当汇编与C接口时,必须采用与C一样的方式进行操作。这个过程可用图1详细描述。特别需要注意的是,由于C编译器不提供检查堆栈溢出的任何手段,因此必须保证有足够的空间用于堆栈;否则若发生溢出现象,将破坏程序的运行环境,从而导致程序的瘫痪。
  2.2 中 断
  中断是DSP控制程序执行的重要方式。通常,DSP工作在包含多个外部异步事件的环境中,这些异步事件的随机发生要求DSP能中断当前的处理程序并转向执行该事件处理程序,执行完后又要求返回被中断的原程序继续处理步骤,这一过程就是中断。中断源可以来自片内或片外的设备,例如时钟、A/D等。中断的设置包含两步--①打开中断屏蔽寄存器的相应中断位,②设置中断服务程序的入口地址,这样就能实现中断的正常运行。中断服务程序是特殊的函数,不能带返回值,不能传递参数,内容须短而有效。标准运行模式为:①保存断点地址并保护所有用到的寄存器,②执行中断服务程序,③释放寄存器并返回。
  ADSP-TS101s中C语言中断实现有两种方法:一种是采用interrupt(int,vuid(*func(int)))函数来设置中断矢量表,这个函数定义在signal.h头文件中。个参量表示需响应的中断位,在这个头文件中也有定义;第二个参数即是中断服务程序。应该引起注意的是,采用这种方法时,IMASK寄存器的异常中断位必须打开,因为interrupt()库函数要使用trap语句来产生陷阱,必须打开异常中断,陷阱才能设置成功,中断矢量表的设置才能完成,否则,中断来l临并不会进入指定的中断服务程序。另一种与汇编语言中断服务程序的实现类似。以定时器O为例,设置好IMASK后,用_builtin_sysreg_write(_ⅣTIMEROHP,(int)timer0h_isr)函数设置中断矢量表,用#pragma interrupt来标识中断服务程序即可。这种方法更简单快捷,但它只适用于Visua1DSP 3.5以上版本,而种方法适用于任何版本。
  3 程序优化
  程序优化包括汇编优化和C优化。手写汇编程序的优化空间相当大,可以产生非常高效的程序代码。由于许多相关书籍都有介绍,就不再赘述,这里主要介绍C程序的优化。
  一般DSP的C编译器都会提供优化编译器,采用优化编译就可以生成效率更高的汇编代码,在某些情况下,执行优化的程序代码要快10~20倍。从某种程度上说,C程序的效率主要取决于C编译器所能进行优化的范围和数量。应说明的是,TSl01S编译器的默认设置是不使用优化器,它可以进行以下几个不同级别的优化,优化程度由低到高:
  ①Debugging:“-g”开启。编译器产生调试信息,以确保目标码与相应的源代码匹配。
  ②DefauIt:编译器进行基本的优化。例如对明确标明的内联函数进行内联。
  ③Procedural optimization:“-o”启动。编译器对要编译的文件中的每一过程进行优化。如果同时开启“-g”,由于“-O”项有更高的优先级,会限制调试功能。
  ④Interprocedural optimization:“-ipa”打开。除了基本优化外,编译器将对所有源文件的整个程序进行优化操作,将删除从没被调用的函数和变量,会明显减少代码长度。
  以上“-g”、“-O”、“-ipa”在编译信息中可以看到。优化级越高,优化的范围就越广。应注意的是,使用C优化编译可以提高程序的运行效率,但由于优化时采用了一些优化措施,使得C和汇编的交叉列表文件不如在不用优化时得到的那样清晰。因此,在调试程序时,先不用优化编译进行调试,待程序调试成功后再用优化编译进行优化。采用C优化编译时,为了保证程序的正确性,特别需要注意几点:
  ①使用asm行汇编语句时必须特别小心。优化器在优化过程中会对程序代码重新进行组织,寄存器使用也比较灵活,同时程序中的有些变量或表达式可能会被删除。虽然asm语句不会被删除,但asm语句的前后环境可能因优化而发生很大的变化。因此,当asm语句涉及到C环境或访问C变量时,使用优化器可能会得到不正确的结果。此时,必须对编译后得到的汇编语句进行仔细的检查,以确保asm语句在程序中的正确性。一般而言,当asm语句仅涉及诸如控制中断寄存器或I/0口等硬件操作时,使用优化是比较安全的。
  ②在优化中,C语言源函数中从未使用过的变量和函数将被删除。若汇编子函数的C外部变量在C程序中从未使用过,有可能被删除并导致编译失败。使用retain_name pragma可以避免变量和函数因优化而被删除。例如:
  保留函数
 

  ③使用volatile变量避免优化。一个定义为volatile的变量是说这个变量可能会被意想不到地改变,比如,并行设备的硬件寄存器(如状态寄存器),一个中断服务子程序中会访问到的非自动变量,多线程应用中被几个任务共享的变量。采用volatile限定词,优化器在用到这个变量时必须每次都重新读取这个变量的值,而不是使用保存在寄存器里的备份。
  ④C语言程序应尽量避免使用指针运算。指针转换会在一定程度上降低运行效率。
  ⑤在“-ipa'‘使能的情况下,在循环前使用#pragmann_alias可以起到进一步优化程序的功能。一般来说,对于循环中不存在迭代运算(使用上结果)的情况,优化效果很好。
  ⑥使用PM限定词定义数据块。默认情况下数组存放在DM区,即块数据区(0x80000-0x8ffff)中。使用PM限定的数组放在第二块数据区(0x100000-0x10ffff)中。由于两块数据区有独立的128位数据总线相连,因此可以实现单周期内的双数据同时访问。
  4 混合编程在系统程序管理中的应用
  下面是一个嵌入式系统管理实例。系统由4片DSP构成,作为系统管理的DSP0负责通过IRQ0接收控制台从RS232串口传来的控制字,译码,并通过控制flag3产生下降沿触发IRQ3中断来启动其他各片DSP.这里用C搭建框架,汇编控制底层硬件,效率高,可读性强。由于篇幅限制,这里略去了串口初始化、串口数据接收函数以及其他芯片的处理程序。
  

上一篇:Zigbee技术的实际应用分析
下一篇:技术文章:嵌入式Linux中如何进行截屏?

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

相关技术资料