农企新闻网

神威太湖之光多少钱(新一代神威E级超算初探)

发布者:高夕东
导读近日,NextPlatform根据中国并行计算机工程与技术国家研究中心的一份文件,分析了中国的百亿亿次超级计算机三个提案之一的申威HPC架构,以及申威多核混合CPU架构 。超算趋

近日,NextPlatform根据中国并行计算机工程与技术国家研究中心(NRCPC)的一份文件,分析了中国的百亿亿次(E级)超级计算机三个提案之一的申威HPC架构,以及申威多核混合CPU架构 。

超算趋势:更多内核

新一代神威E级超算初探:神威太湖之光的扩展

NRCPC对近年来超算系统的发展趋势进行了研究,发现由于摩尔定律和登纳德缩放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情况下提高超算的性能变得异常困难,整个系统架构的复杂性会呈指数级增长。从2008年到2019年,顶尖超算的性能有所提高,这主要是由于内核数的增加,多了44倍。比起重新设计复杂的架构,不如扩展现有的架构设计。

申威SW26010:采用混合架构

2016年推出的神威太湖之光超算使用了40960个国产申威SW26010处理器,采用混合架构。该系统的Linpack性能(Rmax)为93,014.6 TFLOPS, (Rpeak)为125,436 TFLOPS。

新一代神威E级超算初探:神威太湖之光的扩展

申威SW26010处理器是基于自主研发的64位RISC架构,具有4个集群(CG)和一个协议处理单元(PPU)。每个集群有一个MPE(management processing element), MPE是一个超标量乱序核,具有256位向量引擎、32KB/32KB L1指令/数据缓存、256KB L2缓存。它还集成了64个计算处理元素(CPE),具有相同的256位向量引擎以及64KB快速数据存储和16KB指令存储。CPE以8x8阵列形式组成,使用网状网络相互连接。

每个CG都有其自己的DDR3内存控制器,具有自己的地址空间,使用9个内存模块,8GB内存,实现专有的ECC。CG通过类似于环形总线的片上网络(NoC)进行互连,并且处理器本身通过系统互连(SI)总线连接至系统的其余部分。

新一代神威E级超算初探:神威太湖之光的扩展

处理器的工作频率为1.45GHz,可能采用台积电28nm工艺制造。整个系统拥有40960个以上的节点,总计1.25PB内存。

E级超算解决方案:建议扩展一切

从NRCPC的角度来看,可以同时扩展神威系统和申威CPU架构,以构建性能约为1 ExaFLOPS的超级计算机。

新一代神威E级超算初探:神威太湖之光的扩展

新的申威将具备8个CG群集,比原来的4个翻了一倍,CG架构不变,仍然是一个MPE和64个CPE组成。同时CPE和MPE将支持512位向量指令,这样处理器将提供12 FP64 TFLOPS,也会使处理器数量至少增加一倍,达到80000个以上。下一代的神威超算大约1个FP64 ExaFLOPS,2个FP32 ExaFLOPS以及4个FP16 ExaFLOPS峰值性能。,考虑到效率(70%)问题,实际性能大约是700 PFLOPS,也会比现有的神威太湖之光超算快了7.5倍,内存带宽会增加7倍,网络带宽则增加2倍。

面临挑战:需要新工艺

核心数量翻倍意味着需要更多的晶体管,这是一个不可克服的挑战。由于申威SW26010处理器应该采用了台积电的28nm工艺制造,新处理器使用14nm工艺制造是很合理的猜想。目前国内只有中芯国际具有14nm工艺节点的生产能力,但一直都只是生产移动平台的SoC或者相对较小的芯片,这么复杂处理器还没试过。如果采用28nm工艺制造,并非不可行,但功耗和散热方面需要更多地进行处理。

事实上NRCPC的文章里并没有提及整个系统的功耗目标,目前神威太湖之光超算的功率是15371千瓦,而目前排名第一的Fugaku超算消耗的功率为29899千瓦,约为两倍。

新一代神威E级超算初探:神威太湖之光的扩展

另一个问题是中芯国际被美国商务部列入了“实体清单”,无论制造需要的化学品或者配件都更难获取了,会影响代工。当然也可以向台积电或者三星下单,不过同样也会面临被列入“实体清单”的危险,可以说是一个冒险的选择。

从这点上看,还可以向台积电下单,使用7nm甚至6nm的工艺制造。

结论:万事俱备只欠东风

作为国内最早的E级超算计划,为了在Linpack基准测试中达到1 FP64 ExaFLOPS Rpeak性能,NRCPC将增加其处理器中的核心数量,增加对512位矢量指令的支持。最终结果是处理器的核心数量翻倍,以及使用全新的内存系统对其进行支持,并计划采用新工艺制造。

新一代神威E级超算初探:神威太湖之光的扩展

国内的工程师已经可以开发出包括CPU,DRAM,NAND和其他组件在内的尖端超级计算机,但进行中的亿亿级超算系统计划仍存在最后的疑问,最终将取决于制造的工艺技术。