用于10Gbps的高性能内容可寻址存储器

时间:2008-06-16

  随着用户迅速增多以及应用日益复杂,网络正面临着“带宽爆炸”的问题。上世纪90年代中期,对桌面应用而言每秒10兆位传输速度就完全足够,而今天每秒100兆位速度早已是司空见惯,在不远的将来,每秒1千兆位速度也将成为现实。企业内部骨干网络运行速度如此之高,以致千兆位以太网已经是要求,万兆位以太网产品也开始逐渐增多。与此同时,广域网(WAN)正以同样惊人的速度增长,已经达到了OC-192的速度甚至更高。如今的网络包括高速WAN内核、大城市城域网(MAN)设施以及企业中的局域网,图1显示了这几个大块及其组件。路由器、中枢交换机、存储区域网(SAN)和安全网关的运行均要求支持高速搜索,高性能三态CAM正是这些设备的理想方案。

内容可寻址存储器CAM

  CAM是一种专用存储器件,可进行快速大量并行搜索。搜索的时候,存储器中所有的数据同时与搜索关键字比较,搜索结果就是匹配项的物理地址。它可以在硬件中完成数据表查询,需要使用专用比较电路,对每个存储位进行比较。

  为了保证快速搜索,CAM通常采用管线结构,每个时钟周期都能启动搜索,运行速度可以维持在每时钟周期搜索。CAM完成搜索需要多个周期,这些周期即是设备延迟。为了使搜索速度达到快,芯片上必须要有足够多的引脚,以便每个周期都能输入一个比较字。如果引脚的数目是比较字宽度的一半并同时支持双数率(DDR)输入,就可达到搜索速度。DDR在时钟的上升和下降沿都能将输入锁定。

  以前CAM一直是单纯的二进制器件,在每个位中只能存储0或1,近年来出现了在每个存储位置可以存储0、1或X三种值的三态CAM。X是一种“无关”态,可以是0或1,这种功能可用于基于无级域间路由(CIDR)的长词首比较,IPv4 CIDR地址的词首长度可长达32位,超过词首的位就由X填补(见RFC 1519)。当长词首比较完成后(X均代表比较成功),可能会有多个条目与比较字匹配,带多个匹配的搜索结果即是与长词首相匹配的所有结果。三态存储及搜索的其它用途还有滤波、流程控制、分类及范围匹配等。

硬件系统环境


  一个典型的路由和交换子系统,基本功能单元仍与大型网络设备类似,如企业边缘交换机和太位路由器等。

  子系统的主要功能单元包括物理(PHY)和媒体存取控制(MAC)接口、信息包处理器或ASIC、传输引擎和语境存储器、传输管理器、交换结构接口、微处理器及队列缓冲器。信息包处理器的功能包括:对收到的信息包头文件进行管理,解析要搜索的相关头文件并将这一信息提供给传输引擎。需要注意的是如今这些功能都可由定制的ASIC或标准网络处理器产品完成。基于CAM的传输引擎根据这一输入搜索信息传输查询表,以确定对该数据合适的传输入口,然后将其从CAM输出到语境存储器,确定对该信息包要采取的路由、交换或其它方案。

  信息包传输方案的发展经历了几个阶段。早期迭代是基于软件的方法,速度较慢。第二代设备中,信息包传输通常采用基于ASIC的专用非确定算法(如哈希函数)进行,用RAM阵列存储数据。由于非确定算法非常复杂,而基于ASIC的方案又难于开发和升级,所以第三代方案就向着采用高准确度、高容量三态CAM技术的专用标准产品(ASSP)发展,该方案能够满足不断增长的传输量要求,同时又缩短了面市时间,因此极具吸引力。

信息包传输性能要求

  网络内核和企业中不同类型的设备对性能有不同的要求,例如路由表大小会根据必须存储的路径情况而变化,同样,搜索速度随接口速度而改变,另外查表的复杂性相差也很大,从简单的第二层MAC匹配到复杂的多层多协议分类及安全性功能等等。因此在这些不同的应用所采用的方案中,性能和灵活性都必须要能满足各种要求。

对搜索速度的要求

  在考虑不同类型设备所要求的搜索性能时,必须要看几个因素,如传输引擎所要驱动的端口数量和速度等,要知道许多新兴的复杂处理规范要求对每个信息包都进行多重搜索。表1列出了不同LAN和WAN接口速度和三重信息包查询所要求的搜索性能,这些要求大大超出传统查找技术的能力范围,从而也推动了基于三态CAM的传输引擎的发展。

高性能三态CAM

  本节我们将介绍高性能三态CAM的主要特性,包括搜索速度、结构、深度和对应用的适用性等几个方面,并已针对信息包管理功能进行了优化。

1. 搜索速度

  目前CAM的搜索速度为每秒1亿次,该速度可在OC-768中对每个信息包进行搜索或在OC-192中对每个信息包进行四次搜索。也就是说,对于万兆位以太网单个设备可以支持每个信息包六次搜索,或每个信息包在两个合计起来1万兆位的以太网端口进行三次搜索。

  由于有72个引脚输入搜索数据并具有DDR功能,因此对任何搜索类型(匹配、长匹配或任何掩码)只要字宽小于144位都可达到全速搜索。288位字的搜索需要多个周期才能输入比较字(如DDR接口需要两个周期),所以处理速度也会随之减小。

  与搜索速度密切相关的是功耗。完善设计的CAM消耗的功率与搜索速度成正比,所以功率管理特性对于减小器件的功耗很关键。功率管理必须在不需要的时候禁用搜索功能,以降低功耗。

2. 列表维护

  除查表功能外,CAM还必须可以定时访问以对表进行维护,包括增加新条目、更新现有条目、重新排序、学习、删除和诊断。控制这些操作的硬件通常与控制查表的硬件(微处理器、单独的ASIC/FPGA或信息包处理器单独的逻辑部分)不同。

  三端口三态CAM结构完全可以实现这些功能。图3显示了三端口CAM如何集成在子系统的数据和控制路径中,以及与语境存储器的连接。表维护和数据通路信号不同,在逻辑上可将其区分开。分开后可允许在频带外进行表维护操作,在搜索操作的同时不会降低或妨碍搜索速度。SiberCAM Ultra-2M就是一个能满足这些要求的系统,可以在搜索路径中达到每秒1亿次搜索,同时进行每秒一千万次维护,无需排队或冲突探测。由于它们在芯片边界与查询操作完全异步进行,所以不必专为维护预留时钟周期,

  在芯片内部使用了一些新方法使存储器内核的两个时钟域同步,如图4方框图所示。同样,存储器内核的设计保证了两种操作之间作用明确并且不会互相影响。

3. 深度

  每个千兆位端口的列表条目数量视设备是否连接到WAN而有所不同。企业专用的交换机和路由器要求路径列表的深度为每端口8K到32K个条目,而边缘路由器每端口可能有256K个条目。

  目前投入生产的三态CAM在一个芯片上有超过2M个三态位,可设置成存储32K×72位条目(足够用于MAC地址)或64K×36位条目(足够用于IPv4地址),只要网络支持这些宽度即可。因此四个带8K×72列表的千兆位端口可以集成到一个芯片上,或者将芯片专用于一个带32K×72列表的千兆位端口。还可以做出144位或288位列表条目,以用于多域分类器、流程识别或IPv6等应用。9M三态CAM近刚开始试生产,而更高密度的CAM还在开发当中。

  目前WAN边缘应用中要求的更深列表可以通过将多个芯片级联实现。例如可将四个SiberCAM Ultra-2M芯片级联,它不会对搜索速度或延迟产生任何影响,而容量对256K×36 IPv4列表来说完全足够。也可应用雏菊链技术将5到16个芯片级联,但要增加一到三个周期的额外延迟,这对于超过100万个IPv4条目的路由列表、512K×72 MAC列表或混合型256K×72 MAC、256K×36 IPv4和64K×144也是足够的。可变宽度表结构概念对于应用是非常重要的。

对应用的支持

  企业设备多种多样,有低级的工作组交换机,也有复杂的多层边缘交换机和路由器。随着设备复杂程度提高,数据处理复杂性和交换/路由的数据量大大增加。工作组交换机通常是第二层或第三层设备,而边缘设备通常包括第2/3/4层交换,因此必须根据其它自带寻址信息、信息包或帧域将通信区分开来。

  这些域允许一些网络特性,如服务质量、流程控制、虚拟个人网络、安全和访问控制表、服务器负载平衡和基于方案的网络通信等。尽管IPv4查找可以用32位字完成,但分类或流程ID可能要求多达144位(IPv4源/目的地址、协议、ToS、TCP/UDP源/目的端口和其它各种数据),IPv6可能还要求288位。

  要把这些不同功能集成在一个传输引擎中,就要求在同一芯片上同时且动态支持不同宽度的列表条目,这一要求并不是每种方案都可以满足的。图5表明这种系统中不同宽度的条目如何以高效密集的方式存储。在288位以内,36、72、144和288位字的所有组合都可以存储,并类似地可扩展到144和72位条目。注意不同字宽度的分配可以动态修改,这样可以由一个流程ID或其它144位应用代替,只要不超出位限制即可。

  自学习是企业应用中另一项很有用的功能,当交换机端口遇到桥列表中没有储存的源MAC地址时,它就会启动自学习功能,使这一条目成为以后第二层帧可能的目的MAC地址。自动学习模式下的CAM利用源MAC查找遗漏功能,自动指示在列表中写入MAC地址。

  SiberCAM Ultra-2M等高性能CAM的其它实用功能还有:由IEEE标准测试接入端口(TAP)控制的内置自检(BIST)、语境存储器访问线程控制以及用于搜索、条目和脉冲操作的多种寄存器等。

本文结论

  如今LAN和WAN都面临着“带宽爆炸”的问题,新兴的网络设备不再完全依赖传统用硬件或软件算法技术的信息包传递方案。第三代方案建立在高性能三态CAM的基础上,必须支持OC-192和万兆位以太网接口,并以低廉的价格和小巧的体积提供所需的功能和特性。

  单周期查找是高性能三态CAM的关键,但只有在将查找和维护分离进行的三端口结构中才能真正得以实现。要想对应用提供支持还要求对不同字宽(36、72或144位)及搜索类型(匹配、长匹配和任意掩码匹配)都保持单周期特性。此外,对可变宽度的支持可以使存储密度和多层路由表搜索的效率都达到。



  
上一篇:CD系列CD7411CT14E集成电路实用检测数据
下一篇:HA系列HA12195NT集成电路实用检测数据

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

相关技术资料