基于ARM嵌入式平台的X86译码SOC架构设计

时间:2010-09-25

     摘 要:二进制翻译技术是代码移植技术中的一种重要技术。针对二进制翻译的应用,提出在ARM嵌入式平台下实现X86 t0 ARM二进制翻译系统。通过对ARM嵌入式平台的研究,介绍二进制翻译模块的功能,着重论述SOC架构的设计,并分析Multi-layer总线结构的特点及优化。该SOC系统实现了将部分X86指令翻译为ARM指令并由ARM处理器执行目标代码的功能。该设计为在硬件上实现二进制翻译提供了参考。

  二进制翻译也是一种编译技术,它与传统编译器的差别在于其编译处理对象不同。传统编译器处理的是某一种语言,经过编译处理生成某种机器的目标代码。

  二进制翻译是一种直接翻译可执行二进制程序的技术,能够把一种处理器上的二进制程序翻译到另外一种处理器上执行。它使得不同处理器之间的二进制程序可以很容易的相互移植,扩大了硬件/软件的适用范围,有助于打破处理器和支持软件之间的相互扼制的局面。二进制翻译技术的优点为:不需要重编译源码就可以实现软件从旧平台到新平台的移植;快速为新机器提供软件,包括移植操作系统和编译器;充分利用新机器的特性优化代码;减少培训费用,因为使用的是相同的软件,所以不必在新平台上重新培训员工;降低了多平台软件的费用。

  1 SOC架构设计

  1.1 处理器的确定

  通用处理器与硬件逻辑是SoC设计的主流架构。在一些需要大量数据处理的应用中,这样的架构并不能满足要求。实际上,由于不同的任务在很大程度上互相独立运行,可以将具有内在执行并行性的任务分解为紧密联系的子任务,不同的内核可以执行不同的子任务,多核架构在1个周期内可以执行多个指令。这种并行处理使得整个系统的性能与使用单核处理器串行处理相同任务相比,有了很大改进。另外,多核架构设计可以复用现有的单核处理器作为处理器,从而可以缩短设计和验证周期,节省开发成本,符合SoC设计的基本思路。多核架构是未来SoC发展的一个趋势。

  该设计采用双核架构,采用当代流行的处理能力较好的ARM处理器ARM7TDMI-S和ARM926EJ-S,ARM内核的优势在于高速度、低功耗。

  ARM7TDMl-s具有3级流水线结构,支持Win-dows CE,Linux等操作系统。ARM926EJ-S是ARM公司在2000年推出的功能强大的ARM9处理器,实现5级流水,它与外部通信接口为双AHB总线结构,即指令AHB总线和数据AHB总线。该设计中ARMTDMI-S主要负责控制、操作系统平台和任务的调度。ARM926EJ-S则主要负责各种任务的执行。

  1.2 使用的总线标准

  由于SoC中集成了大量的IP核,设计的关键在于如何实现各IP模块之间的互连。目前,SoC中IP核的互连一般采用总线结构,通过消息通信。

  采用ARM公司的AHB与APB为片上总线。AMBA总线体系结构是当前SoC体系设计结构设计的开放标准,由于AMBA被越来越多的公司采用,已迅速成为SoC结构和IP库开发的标准。

  在具体实现时,采用AHB加APB的两级总线结构。AHB用来支持高速设备,支持多主从设备。多个主设备之间通过仲裁机制保证优先级,从设备通过地址译码机制被选中,并响应主设备发起的总线事务。APB用支持基于寄存器访问的低速设备。AHB与APB两条总线通过总线桥连接在一起,实现两条总线之间的协议转换。图1为SoC的系统结构框图。


  1.3 各IP在系统中的功能

  除了两个处理器外,SoC中各IP核功能如下:翻译模块:实现将X86指令翻译成为ARM指令的功能。

  SMI:外部存储与微处理器之间的桥梁,支持RoM作为系统的非易失性存储介质,支持片外SRAM作为系统的外围高速存储。

  中断控制器:用来支持系统内部与外部的中断控制,如中断电平/边沿触发、中断电平极性与中断使能等。

  Internal Memory:片内SRAM,大小为1 KB,但可以通过修改Verilog的描述来改变其大小。

  Default Slave:用于当master访问未定义的地址空间时,给出一个应答信号。

  Retry Slave:是一个可以产生重试回应及等待命令的slave范例,若需要类似的模组,可以利用它来完成。

  Watchdog:保证系统安全的监控模块,软件需在预定的时间内访问相应的寄存器,否则硬件将产生内部信号自动复位。

  GPIO控制器:用来支持扩展外设,拓宽SoC的使用范围。

  Remap&Pause:主要分成两个处理单元,前者负责控管地址是否重新对应的机制,后者负责管理系统的省电模式。

  Timer:定时器,支持捕获、Matchout输出、外部时钟驱动。

  2 X86到ARM二进制翻译模块

  该设计使用的翻译模块通过编写Verilog HDL实现,能将部分X86指令翻译成ARM指令,实现了某些X86应用程序到ARM架构的移植。图2为解码器内部结构图。


  该翻译模块首先从ROM中取出X86指令,翻译成ARM指令后存人RAM中,所有指令翻译完成后,翻译模块产生一个终端,使处理器执行RAM中的指令。即所有指令先翻译完成,处理器才执行,该翻译过程属于静态二进制翻译。其中Decoder是整个解码模块的,负责翻译指令。Decoder模块采用有限状态机控制数据通路的方式实现.根据指令的功能和寻址方式进行状态分类,然后输出ARM指令。例如,把寄存器寻址的算术指令可分为一类:

  ADD EAX,EBX

  SUB EAX,EBX

  因为这些指令的寻址方式一样,功能近似,只是操作码不一样,可以归并为一个状态,在某一状态内建立映射关系翻译成为ARM指令。

  考虑到AHB总线可能处于比较忙碌的状态,对于X86指令和翻译出的ARM指令分别设置2个FIFO。FIFO1和FIFO2各自有2个存储器,其中一个存储指令,另一个存储与指令对应的地址。对FIFO进行操作会同时对指令和地址进行操作,以保持指令和地址的对应。

  此外,ARM核需要向解码模块发送信号,通过设置Communicate模块中的寄存器控制指令译码器的工作:

  设置X86指令的起始地址;设置X86指令的终止地址;设置ARM指令的初始存放地址;设置ARM指令复杂指令段的初始地址;设置使指令解码器开始工作的标志寄存器,高电平表示工作;判断指令解码是否结束,结束后向ARM核发送中断;ARM核接收中断信号后,将标志寄存器置低,翻译模块结束本次工作。

  本文的SoC系统中没有使用DMA对X86指令和ARM指令进行存取,而是由翻译模块主动进行读和写。因而有2个Master总线接口,通过AHB _1_1interface读取X86指令,由AHB_2_1 interface将ARM指令写入RAM中。Communicate模块与总线的通信接口为Slave口,用于接收ARM核发送的4个地址,一旦接收到这4个地址,翻译模块中的start_flag信号置高,表示开始工作。

  3 片上总线结构

  在ARM SoC体系结构中,有Master和Slave这两个重要的概念。Master是ARM SoC体系结构中的主单元,他可以向总线发出请求并且对传输进行初始化,例如对存储器进行读/写操作,典型的Master可以是CPU,DSP,DMA。Slave是ARM SoC体系结构中的从单元,典型的Slave为片上或者片外存储器,它们都有自己惟一的地址范围。Master发起读/写操作时,在初始化中会给出读/写操作的地址,而地址译码器则根据这个地址决定哪个Slave被Master选中,然后相应的Slave做出相应。

  在AHB系统中,若有2个Master常需要AccessBus,则系统的Performance必定会下降。为了解决这个问题。ARM提出了Multi-layer AHB,其基本构想是2个Master走不同的Bus去访问Slave,如果访问的Slave不同,则两个Master可以同步的进行Transfer。若彼此访问一个Slave,则根据优先级去判断要先处理谁的Transfer。


  该总线结构使用了Multi_layerbus switch(BusMatrix)模块。AHB BusMatrix的设计可以分为3个部分:输入级、译码级和输出级。图3为该设计所使用的结构,其中,输入和输出的个数可以根据系统的Master和Slave灵活调整。

  可以看出,每个Layer都有一个译码器来决定Master要访问哪一个Slave,通过多路选择器实Master和Slave之间的Transfer。。每个Slave口都有自己的仲裁器,该仲裁器使用固定优先级,优先级的Layer可以优先访问对应的Slave。

  随着系统中Master和Slave的增多,Busmatrix模块的复杂度也会明显增加,如果按照系统所有的Mas-ter和Slave的个数来确定输入/输出口的个数,Busma-trix将会非常复杂,因此对系统结构进行优化变得非常必要。根据系统工作情况可以发现,翻译模块的Slave端口仅被ARM7核访问,即向翻译模块存取指令所需的地址,控制其工作,该Slave可以看作是ARM7核私有的,而不被其他Master访问。有些Slave只有在特殊情况下才被访问,因此可以将多个Slave看作一个Slave挂在BusMatrix上。优化后的SoC硬件架构如图4所示。


  4 结 语

  这里给出了一种具有X86到ARM二进制翻译和执行功能的SoC系统。利用Multi-layer bus SWitch(BusMatrix)模块实现Multi-layer。总线结构,在多个核不访问同一个Slave时,可以同时执行各自功能,有效提高系统的性能,且该总线结构的可扩展性强。同时根据系统工作的特点,对总线结构进行了优化,减小了总线的复杂度。


  

参考文献:

[1]. ARM7TDMI-S datasheet https://www.dzsc.com/datasheet/ARM7TDMI-S_1231795.html.
[2]. RoM datasheet https://www.dzsc.com/datasheet/RoM_1188413.html.


上一篇:JN5121芯片在基于WPAN的无线医疗监护技术中应用
下一篇:便携式智能自我血糖监测仪器设计方案

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

相关技术资料