发布日期:2022-07-14 点击率:14
由于无法同Intel为首的X86阵营甚至ARM公司竞争,蓝色巨人IBM主推的Power架构一直处于曲高和寡的境地。与其类似的是,其一脉相传的同门兄弟Cell/B.E(Cell Broadband Engine)如今的日子也不好过:这项IBM联合索尼东芝共同开发的技术其未来在索尼宣布以亿美元的价格将旗下芯片业务转让给东芝之后被蒙上了一层阴影。不过,在不久前在上海举行的一场颁奖活动上,IBM中国开发中心下一代计算系统软件和生态系统开发经理王远洪展望了Cell/B.E.刀片服务器以及SDK的发展路线,显示了该公司在此项技术上一如既往的热情。他表示,未来Cell/B.E.将超越主要集中在游戏和HDTV等领域的现状,向高性能计算、数字媒体、医学影像、地震和金融服务等领域进军。
关注未来两类应用
简单回顾一下Cell/B.E.的发展历程。IBM、索尼和东芝公司于2000年宣布开始合作开发面向游戏设备的处理器。2001年,三方在美国德克萨斯州的奥斯汀投资4亿美元成立了Cell开发中心。2004年春天,基于Power架构的第一代Cell处理器完成基本开发工作。几个月后,每周期能够分派两个指令的第二代Cell处理器也很快诞生。2005年1月,备受瞩目的Cell处理器终于第一次正式亮相。同年底,IBM发布了开放的源SDK软件。2个月后,Cell三巨头宣布将合作期限延长5年,并继续开发基于32nm的Cell处理器。
王远洪表示,与以往的同构多核架构不同,Cell处理器采用了异构多核的架构。由于每块芯片包含了一个主处理单元(Power Processing Element,PPE)和八个协处理单元(Synergistic Processing Elements,SPE),并在设计时利用了分布式处理的理念,Cell/B.E.能够利用将计算任务进行分解,从而利用多个处理单元同步进行子任务处理的方式进行工作,这令它特别适合于需要大量视频、音频、图像处理的游戏机产品。因此就目前来看,Cell处理器的应用大户依然第一个尝鲜的PS3游戏机。此外,IBM也在尝试将其推广到刀片服务器中,已经推出的QS20和QS21刀片服务器就是在这方面的有益尝试。据称,该公司明年还会推出一款新的基于Cell/B.E.技术的刀片服务器。
F1:连接Cell/B.E.所有处理及输入输出单元的高速环形数据总线
在2007年10月举行的CEATEC上,东芝展示了一款采用基于Cell/B.E.技术的图像处理芯片SPURS Engine的笔记本电脑,并进行了以三维计算机动画对从摄像头输入的面部图像进行实时合成的演示。尽管SPURS Engine仅有4个SPE,主频只有,并取消了PPE模块,更像是一个精简版的Cell处理器。但由于首次将Cell/B.E.技术引入消费电子领域,SPURS Engine的发布还是令Cell/B.E.的推崇者们备受鼓舞。
不过,无论在PS3还是在SPURS Engine上,强大的Cell/B.E.技术都只是小试牛刀。事实上,IBM重金打造Cell/B.E.的目的也的确不仅仅在于上述应用,而是未来的高性能多媒体技术时代。该公司声称,“Cell/B.E.可有效提供‘超级计算机般的性能’,特别适用于许多行业的高性能工作负载,包括数字媒体、医疗图像、金融服务、航空航天、国防和通信行业。”
上述应用可被简单的分为两个大类。举例来说,EDA设计中的半导体检测、流体动力学、地震分析以及金融模型分析(股市期货行情)等属于分析理论、数据处理、信息合成分析的范畴;数字视频监控、多媒体和娱乐则被归为数字成像、数据演示(Presentation of data)以及图形化虚拟现实/成像分析一类。此外,航空航天与国防以及医疗成像由于高度的复杂性而同时具有两类应用的特点。
就目前来看,在这场关于未来市场的争夺战中,IBM已经走到了其他竞争者的前头。该公司已经赢得了来自美国能源部的一项开发合同。这台名为RoadRunner的超级计算机将在位于新墨西哥州洛斯阿拉莫斯国家实验室建造完成,由16,000颗Cell处理器和大致数量的AMD皓龙服务器芯片组成,峰值运算性能可达1.6 Peta flops,是此前全球速度最快的超级计算机BlueGeneL的4倍。
QS2X系列路景图
已经披露的数据显示,如果以Intel的Core 2 Duo CPU来进行上文所提的面部图像的实时合成,即使CPU资源占用了80%,也只能勉强达到16fps的帧速,而SPURS Engine却仅用30%的资源就可达到30fps,这显示了Cell B./E.在处理图像时的强大性能。Cell开发中心正在致力于Cell处理器性能的进一步提高。而王远洪也披露了该公司在Cell/B.E.刀片服务器上的产品路景图。
在2006年7月和9月相继推出软件开发工具包SDK1.1和QS20刀片服务器之后,IBM在在2007年3月推出了SDK2.1。10月份,又相继推出了各自的升级版本SDK 3.0和QS21。与QS20相比,新版本最大的变化是如今每个BladeCenter刀片服务器机箱中最多可安装14个QS21,比原来增加了一倍。QS21还增加了2GB I/O缓存。此外,其I/O还可支持16条单数据传输速率Infiniband线路。利用一个名为“交互式光线跟踪器”的可扩展技术演示程序,IBM展示了其利用QS21来实时呈现传统高性能计算环境需要花费数小时处理才能完成的复杂3D场景中的照片级清晰图像。
王远洪透露,该公司将在2008年上半年推出拥有两个CBEA架构处理器的QS22,虽然仍然保持了1+8的基本结构,不过SPE却升级到了专门针对双精度浮点运算进行了优化的eDP SPE,双精度浮点预算能力从目前的42GFlops提高到217G Flops,缓存也提高到32GB,并将配备16个PCI Express插槽。此外,2008年还将发布两款开发套件,分别是计划在3月和12月发布的SDK 4.0和SDK 5.0。其中,SDK 4.0将采用增强型的刀片间协作架构,支持XL Fortran 11.1,拥有更多的生态系统支持能力。
IBM还计划于2010年推出采用第一个Tereflop级CEBA架构处理器的刀片服务器。这款革命性的产品将包括2个PPE和32个eSPE。单精度浮点运算能力可能提高到2Teraflops,双精度浮点运算能力也将增至1Teraflops,并将采用下一代存储技术。
Beyond Gaming
作为这家公司试图建立起被内核厂商们所追求的“生态系统”计划的一部分,IBM已经在去年举办了首届Power架构校园设计大赛,并在上海成立了Power架构应用开发中心。该公司如今开始尝试将Cell/B.E.也纳入到这一计划中来。“随着应用领域的不断延伸,Cell/B.E.正在为不同行业的客户提供着强大的计算动力。校园大赛将使这一技术在更多年轻人中得到推广和普及。”IBM系统与科技事业部大中华区基础架构解决方案总经理朱明表示。
IBM将这次比赛的主题定名为“Beyond Gaming”,该公司表示,参赛设计主要应用于涉及全行业的编程工具,包括一切以应用为导向的解决方案,例如:可视化、医学成像、地震计算等高性能计算。,而来自中国高校的学生凭借在医疗、视频、图像以及网络等方面的出色创新展示了强大实力,四所代表队伍包揽了欧亚赛区的前四名。下面是这些项目的简单介绍:
螺旋锥束CT(计算机断面成像)是一种广泛采用的医疗影像系统。精确重建算法的密集计算成本不允许在临床使用这种新型重建算法。通过一个并行计算的计划,上海交大的学生在CBEA架构上执行了精确反投影卷积(Backprojection Filtration,BPF)重建算法,获得了这次比赛的冠军。
纹理合成算法在大规模场景制作,真实图形绘制,计算机动画与合成的游戏背景上具有广泛的应用前景。在合成一个像素前,该算法会基于像素搜查每一个像素的样本形象。由于采用了为Cell/B.E.而优化的双缓冲以及数据和任务并行技术,天津大学计算机科学与技术学院同学组成的团队使得需要大量计算和内存访问的环节变得简单和快捷,为他们赢得亚军的桂冠。
来自上海交大的另外一个团队由于通过Cell/B.E.实现了实时高清编码而取得了季军。这一努力被分为两部分:1.执行和优化编码算法;2. 基于Cell/B.E.的算法分区和并行。通过平衡信息复杂度以充分适应所有硬件资源,编码算法的计算复杂性能够平等地分配到每一个处理器。通过仔细评估上述工作,基于Cell/B.E.的编码速度得到大幅提高,实时高清编码成为现实。
南京大学的学生通过他们的方案证明了Cell/B.E.架构在网格应用方面的强大性能。其“一种以Cell/B.E.驱动的网格空间”研究取得了本次比赛的第四名。“他们创造了一个基于Python和Cell/B.E.驱动的网格系统。”评审意见指出,“通过扩展Python的执行,任何网格中的节点都可以访问遍及网格的任何Python目标。同时,Python代码被分割成片,蔓延到其它节点实现并行。更重要的是,即时编译器能够将Python VM代码转换成SPE指令,通过SPE获得了巨大的加速度。”
作者:王彦
下一篇: PLC、DCS、FCS三大控
上一篇: 设计差异化是推动半导