发布日期:2022-07-14 点击率:51
思科系统近日展示了一款新型路由器,该设备在一个定制的40核处理器Quantum Flow上整合了多种网络服务功能。这名以太网巨头打算充分发挥其在设计复杂ASIC上的专业技术,以便在50亿美元的边缘路由器市场中超越对手。
一个专用的定制处理器、内含40个Tensilica内核、每个内核能处理4个线程,在考察了思科系统公司的Quantum Flow处理器(QFP)之后,我们明白:多内核设计并非生来都是一样的。
Quantum Flow处理器把思科在网络系统ASIC方面的技术水平推到了一个新高度,在某些方面超越了英特尔和SUN的主流服务器CPU技术。分析人员认为,思科这一举措十分明智,尽管有人抱怨该公司对新芯片框架细节过于讳如莫深。
思科声称已投入2.5亿美元和长达5年的时间在聚合服务路由器1000(ASR 1000)系列上,其中1亿美元用于Quantum Flow处理器的开发。该系列路由器能够支持多种服务功能,比如防火墙、IPSec安全虚拟专用网(IPSec VPN)、深层数据包检测(DPI)和会话边界控制(SBC)等,数据率高达20Gbps。
高度整合换来高性能
“要在运营商级和终端用户网络的边缘提供这些功能,大约需要6个设备。”思科服务提供部门总经理Pankaj Patel表示,“我们的价值主张是:把它们都整合在一个小盒子中,以便降低资本投入与运作支出。”
Juniper Networks和Redback Networks等竞争对手的产品,以及思科现有的7600系列路由器,一般都是在一个底盘上放置多个卡,或者是在一个机架上堆叠若干设备来处理网络边缘上日益增多的功能性,International Data公司电信分析师Eve Griliches提到。
“各路由器厂商都纷纷尝试在一个盒子中整合所有的服务,但事实上迄今却没有真正成功过,而市场却被搞得乱七八糟。把所有的东西都集成在一块芯片上是正确的一步。思科的一大批竞争对手都将往这个方向发展。”她表示。
这一系统的关键是包含13亿个晶体管的流处理器,这个80瓦的芯片是由TI采用90nm工艺技术制造的,设计中还采用了思科的专有工具。它所包含的40个Tensilica内核中的任何一个内核都能够处理多达4个线程,远远超过了Sun的65nm Niagara或英特尔的45nm Penryn服务器芯片的RAW线程级并行能力。
“我们曾放眼公司内外,寻找可以利用的技术,但一无所获。”思科中型路由部门工程总监Nikhil Jayaram表示,“其它架构都是关于数据包处理的,而我们需要的是对状态化流量进行流处理。”
多核处理器和复杂的聚合路由器被整合在一起,从而构成了目前公共网边缘上最复杂的通信处理芯片。现在,网络中心承载的都是大容量的高速哑数据流,而所有的智能都驻留在公网的边缘,像思科CRS-1这样的核心路由器不再是高性能网络处理器的首选平台。”
思科希望新推的处理器用于范围广泛的路由器中,并在数年里可在现场进行升级。但能否在正以两位数字速度增长的动态边缘网络市场获得成功尚不确定,IDC的Griliches称。
内核完成的具体任务
对于Tensilica内核到底完成哪些工作,思科公司一直守口如瓶,对此,分析师和竞争者均表示不满。QFP包含众多的多线程内核,可以进入到比开放系统互联(OSI)协议第三层(网络层)更高的层,完成对互联协议包进行内部探查的任务(通常称为深层次包审查)。流处理器看似比商业网络处理器更具优势,不过鉴于思科对这款器件的具体细节守口如瓶,现在下结论尚为时过早。
“大多数网络处理单元(NPU)都仍然主要工作在第2层和第3层,主要是转发数据包,并没有做大量的最上层处理事务。”The Linley Group公司分析师Bob Wheeler表示。
这个庞大的Tensilica内核群可用于在第二层和第三层完成较简单的交换和路由任务,即传统上由互联网路由器完成的包转发任务。由于其中的一些技术源自思科在2004年收购的Procket Networks公司,QFP很可能用于完成许多高于第三层的任务。
确实,QFP的设计者曾在一次新闻发布会上提到,可通过编程让Tensilica内核完成更深层的包审查,但目前仍不清楚QFP在多大程度上是采用硬连线方式来提供更高层服务的。
我们为什么关心这些问题呢?双层面网络处理器可以充当许多角色,包括安全处理器。与之相比,纯粹的数据通道处理器可高速且高效地完成包转发任务,但没有多少其它功能。
如果QFP可完成许多更高层的功能,则可以用ASR 1000来完成各种入侵检测和预防任务。思科公司可能在其面向应用的联网程序中把它作为XML网关的前端来使用。在这些应用中,边缘路由器将变成实现联网的利刃。
该战略可能会进一步使思科与竞争者Juniper网络公司在路由器架构方面的差异加大。在思科公司推出了CRS-1核心路由器之后,Juniper公司也展示了类似的能力,该公司发布了包含T1600和T Matrix的T系列分布式套件。Juniper公司在前不久还为其路由器发布了一款专用的控制层面的硬件系统——JCS 1200。
F1: 思科Quantum Flow处理器性能对比。
需求推动更复杂处理器的发展
考虑到公共网络聚集了多个速度高达10Gbps且QoS参数各不相同的服务通道,其边缘路由器需要完成多种不同类型的任务。因而,即使是规模较小的路由器也需要使用非常复杂的处理器。
英特尔和Cavium Networks都已设计出了10G网络处理器,性能功能接近思科的产品。英特尔IXP 2800采用了16个可编程内核,可在卡上运行服务程序。新创公司Netronome正在开发一款20G产品。
Cavium的Octeon采用了16个MIPS内核,能够处理第4-7层的某些服务任务。它带有一个嵌入式模式匹配引擎,但需要片外TCAM来进行数据包分类。“对于思科,挑战在于如何把一个多核处理器转变为网络处理器。”Jayaram指出。
面向服务器的多内核型多处理器大多数(如果不是全部)是专门用于完成控制层面的操作,与之相比,思科公司的QFP更像是Cavium公司Octeon处理器的超大尺寸版,它的众多内核既完成控制平面的任务,也完成与数据路径有关的任务。
思科有100多位工程师参与这个设计项目,其中一些曾在AMD、Cyrix、英特尔和Sun担任过微处理器设计师,也有部分工程师来自思科的CRS-1内核路由器设计团队。这个项目组把思科的具体芯片设计推到了一个前所未有的高度。他们致力于电路设计和内存设计,自行完成芯片版图和RTL设计,甚至自己设计封装,创思科另一先河。
“我们最大的挑战之一是信号完整性,而封装对其影响举足轻重。”Jayaram表示,“设计拙劣的封装在功率和信号完整性方面会让你头痛不已,但从信号完整性的角度来看,我们的基板几乎是没有影响的。”
保持这个处理器反馈是另一个难题。思科选择了一种平面存储模型,利用第二代低延迟DRAM的多个信道和芯片内的多个存储模块。
“我猜想我们比其它技术使用了更多的片上和片外存储。”Jayaram称。
和某些采用TCAM(电信存取方法)分段存储库和其它存储结构的网络处理器相比,这种系统DRAM平面模型更便于器件实现简单的C代码编程。
该芯片的每内核支持多达4个线程,故能够弥补通信处理器因需要多次存储访问而产生的延迟的一部分。大多数计算机处理器每核只采用2个线程。
选择Tensilica而不是MIPS 或 ARM作为内核供应商曾是很冒险的决策。“它们相当类似,但当你深入了解网络处理的真实细节时,会发现Tensilica架构具有某些优势。”Jayaram提到。
这些内核链接在一个高效高性能交叉开关上,他表示。使用40多个内核的处理器一般转向更复杂的结构,比如网格。
在外部,该芯片带有4个10Gb的SPI 4.2端口,利用思科一项专有技术链接两个互连,可以实现数据率高达20Gbps的流量进出。该芯片的下一代版本将采用一种Interlaken互连衍生技术,流量进出芯片的速率将能达到40Gbps。
该芯片适用于树查找、哈希函数和大带宽/低延迟访问DRAM等关键通信任务。它的主要秘密武器在于采用了复杂的算法来灵活处理各种不同的内容流,比如其中部分可以直接通过,其它的被逐条处理。
板上的其它ASIC包括一些数据帧和常见小部件。思科在它的IOS路由器软件上增加了一个虚拟层,这样无需多个流处理器就可以提供系统容错冗余。
思科已为这一新路由器申请了42个相关专利,其中大部分是关于处理器的。
网络流量的快速上升将推动对新系统的需求,思科表示。该公司估计,全球IP需求将从2007年的每月7EB(exabyte)增长到2011年每月29Eb,其中部分增长来自于消费类视频,2011年的数字比2000年美国互联网主干网的流量总量大1,100倍。
该公司的新路由器受到了多家终端用户或潜在用户的支持,其中包括汉莎航空和金融公司Wachovia。思科在一次新闻发布会上曾引用一位电信高管的话,称路由器代表着未来运营商级网络所需要的一类设计。
“我们认为在网络边缘必需执行动态质量控制,以便灵活且安全地实现宽带服务和融合通信流量的汇聚。”Nippon Telegraph and Telephone公司执行副总裁Shin Hashomoto在一次特别声明中表示。
尽管ASR 1000包含了这种壮硕的QFP,但也并未取得可漫天要价的地位。鉴于思科公司已经在夸耀其两插槽ASR1000的价格优势(起始价格为3.5万美元),该公司可能已经做好了打价格战的准备。
思科公司的ASR 1000及其QFP处理器的推出,使得业界在路由分配方面看到两点倾向。其一,边缘路由器仍将比核心路由器更多地需要多层处理,尽管40和100Gbps的高速链接可能最先将在核心路由器中实现。其二,在什么程度上把控制层面和数据路径的功能结合到庞大的单个ASIC中,或在更为模块化的系统中把它们分配到多个刀片中,可能会取决于思科公司和Juniper公司在边缘路由器方面倾向采纳的经济模式。
作者:麦利 卫玲
下一篇: PLC、DCS、FCS三大控
上一篇: 未来的多核处理器将有