余鹏鲲:美国首台E级超算,赢在哪里?输在哪里?

来源:观察者网

2022-06-21 07:53

余鹏鲲

余鹏鲲作者

独立撰稿人

【文/观察者网专栏作者 余鹏鲲】

当地时间5月30日,世界超算两大学术会议之一的ISC在德国汉堡举行,并发布了超级计算机Top500 榜单。登顶本次榜单的是美国橡树岭国家实验室研制的Frontier超级计算机,在LINPACK基准测试中,这台超级计算机的稳定运行速度可高达1.1EPlop/s(百亿亿每秒),理论速度高达1.68EPlop/s。

Frontier的成绩在榜单中是鹤立鸡群的存在,以稳定速度计,比排名第二的日本超级计算机“富岳”整整快了2.49倍,理论速度更是快了3.14倍。事实上Frontier的稳定速度,相当于排名2-8名超算的性能之和。在性能有成倍提升的情况下,Frontier的功耗仅相当于“富岳”的71%。也就是说,Frontier不仅性能强大,还拥有非常出色的功耗表现。

超算Top500 榜单1-6名

相比日本、芬兰和美国在超算上的你追我赶,近年来的中国显得非常沉寂,曾经排名世界第一的超算神威·太湖之光不仅在排名上滑落到第6,性能也只有不到0.1EPlop/s,与Frontier相比存在数量级的差异。

第一名超过第二名近2.5倍,第二名又比第三名快了将近3倍,面对这一现象,有人提出中国的超算是“(堆)硬件上的领先”,并引用清华大学科学史系博士后司宏伟文章,认为:“中国超级计算机的自主创新之路还任重而道远,面临着原创能力不足、人才匮乏及应用较少等问题”。

2021年底,司宏伟在发表的一篇文章中指出:若以国内目前传统技术方法构建一台E级的超级计算机,年能耗将会超过三峡水库发电量的1/3。

美国加州大学计算机工程博士刘少山认为:国内超算软件人才与美国相比还有很大差距,目前绝大多数超算底层软件库都是由美国的科研人员所研发。中国还很缺能够利用超算解决应用问题的高素质人才。国家超级计算无锡中心并行优化部主管刘钊在接受媒体采访时谈到,近年来在互联网公司的冲击之下,无锡(超算)中心的人手一直吃紧,特别是应用领域人才偏少,大约只占研发团队人员的三分之一。

如果只看这些材料,难免给人一种感觉,中国过去在超算领域长期领先只是偶然的,中美超算的潜在实力相差很远,事实果真如此么?

中美超算水平依然接近

根据中国科学院院士钱德沛2019年所做的一个报告,1993-2012年,超级计算机的性能大约每10年提高1000倍,从2013年起,上升速率变缓,降低为每10年100倍左右。但无论如何,超级计算机性能增长的速度远高于民用PC的性能增长,这说明超级计算机性能提高固然要靠单芯片性能的增长,也非常依赖系统规模的扩大。

超算性能增长曲线

超级计算机的性能野蛮生长了20年,至今为止,美国研制Frontier的花费也不过区区6亿美元,这说明超算系统规模的扩大并不是简单的堆硬件。过去超级计算机竞争的关键,就在于研发设计芯片间计算任务调度、分发、通信的软硬件,使得数量众多的芯片能够以较高的效率同时进行计算。

Frontier超算

一些文章虽然正确科普了通信技术对超算的重要性,但却陷入到对美国超算通信技术的盲目崇拜中去,把Frontier采用的HPE Cray Slingshot-11说成是“最先进的”,而没能客观比较中美超算通信难度。2016年,中国正式公布了神威·太湖之光超算,该超算共由40960块“申威26010”处理器构成,这些处理器分属20480个节点。

而美国的Frontier只有9408个节点,每个节点配备一个AMD Epyc 7A53 CPU和四个AMD Instinct MI250X加速卡。显然,Frontier的节点间通信的压力要小得多,也更容易设计。因为Frontier拿了第一,所以就认为美国在超算调度、分发、通信等等领域超过中国,这显然是不客观的。

Frontier的基本情况

有人可能会觉得只比较节点太过于武断,其实早在2016年中科曙光就正式启动了E级超算的研制项目,2018年前后同时在研的有曙光、神威、天河三种技术路线的E级超算,其中进度最快的“天河三号”原型机,2018年7月就通过了验收,标志着中国掌握了E级超算相关技术。

但中国超算继续领跑榜单的情况并未出现,这主要是由于美国对中国超算发展始终持不正常的阴暗想法,蛮横无理地采用包括单边制裁在内的手段遏制中国超算发展,导致中国从2020年开始不愿意提供中国超算的基准测试数据,并加强了保密措施。正如上海交通大学网络信息中心副主任、高性能计算专家林新华所说:“进入TOP500是为了促进国际合作,但结果却适得其反”。

那么中国是否具有E级超算呢?今年5月,美国田纳西大学相关领域的教授杰克·唐加拉认为:“中国是有东西的”,“只是没有官方的说法”。


无独有偶,去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名权威人士”的话指出,中国神威·太湖之光的后续型号海洋之光,2021年3月运行基准测试时,稳定运行速度达到了1.05EPlop/s,其时的功率为35MW。

如果该文数据正确,那么有人说中国的E级超算功耗“将超过三峡发电量的1/3”的说法不攻自破。

国外媒体的猜测并非空穴来风,今年4月中国科学技术大学、国家海洋科学与技术试点实验室(青岛)、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队,公布了一篇超级计算机模拟复杂量子多体的文章,文章中介绍了高性能计算环境时报告了sw26010pro的架构。该CPU作为sw26010改进型,拥有6个计算组,每个计算群有1个管理核心和64个计算核心。而组成太湖之光的sw26010,只有4个计算组,说明sw26010pro单片至少有50%的性能提升,极可能属于新超算,文章也称之为“新一代神威超级计算机”。

sw26010pro的架构

同样基于“新一代神威超级计算机”的还有第一单位为中国科学技术大学的一篇论文,该研究首次实现了长达7天的全球3公里空间分辨率大气物理-化学全耦合数值模拟试验。文中提到,数值模拟试验的规模最大曾经达到过近4000万处理器核,并且效率仍然达到76.2%。

相关论文

从论文中透露的信息,我们不难分析出两点内容。一是“新一代神威超级计算机”的规模很大,远超过神威·太湖之光(最大1000多万个处理器核)。二是“新一代神威超级计算机”效率很高,须知几乎没有超算程序的运行效率高于基准测试。美国的Frontier运行基准测试时,效率也不过能达到理论的65%,还有很大的进步空间。

更为直接的证据来自于2021年一项利用神威·海洋之光实时模拟量子电路的研究。该研究披露,海洋之光的节点高达惊人的107520个!模拟程序的速度可以达到1.1EPlop/s(单精度)或者4.4EPlop/s(F16混合精度)。

由于模拟使用的海洋之光还是片上异构式的超算,1.1EPlop/s(单精度)换算成超算常用的双精度至少有0.55EPlop/s。如果海洋之光没有对混合精度进行过优化,那么4.4EPlop/s(F16混合精度)换算成双精度就有1.1EPlop/s,这一成绩已经与Frontier运行基准测试的成绩差不多了。何况模拟程序的效率,几乎肯定达不到基准测试,海洋之光的实际速度还可能更高。

论文中关于计算速度的表格

因此我们可以放心大胆地认为:中国即使没有E级超算,也非常接近,中美超算技术并未重新拉开差距,而这些成绩还是在西方国家严格制裁的情况下取得的。

同时,这么多的论文和研究,也说明中国超算的应用水平已经达到了相当的水平。固然还有提高的空间,却不像一些人所说的那样一团黑。

美优势在于民用芯片

中美超算水平接近,是否意味着美国超算就不值得借鉴呢?显然不能这么说,美国这次超算重新夺魁,一个突出的优势就在于美国的民用芯片水平很高,并且带动了像超算这样的专用领域。

在神威·太湖之光以前,超算的竞争主要是超算系统中调度、分发、通信相关的软硬件的竞争。每一个节点要么纯CPU,要么是CPU+加速卡的异构计算方案,为了提高性价比和计算速度,往往还会购买英特尔和英伟达两家美国厂商的成熟产品,早期的天河系列超算就是典型代表。

天河二号是典型的异构计算

CPU+加速卡方案的优点是将管理(通用计算)和专业计算分开,提高了单节点的计算速度,但缺点是计算的数据会反复在CPU和加速卡之间传输,造成大量的性能浪费。而太湖之光使用的sw26010将两个部分的电路,集成到了一个芯片上(片上异构),这样既避免了纯CPU不擅长专业计算的劣势,又避免了加速卡不能和CPU共享内存的问题。


值得一提的是,2010年前后开始,纯CPU的方案劣势太大,越来越少地被采用。而无论是异构计算,还是片上异构,编程都不容易,且掌握起来难度都差不多。不存在中国超算芯片因为不用于商业市场,所以程序兼容性不好的问题。

正是由于这个创新,sw26010在设计团队规模很小,制程落后整整两代的情况,实现了和英特尔类似产品相似的功耗和性能。太湖之光的成功,启迪了后来日本的“富岳”超算。“富岳”同样抛弃了美国成熟的计算方案,购买ARMv8.2-A指令集开发管理核心,并自研专业计算模块,推出了富士通版的片上异构芯片A64FX。

A64FX的架构和sw26010即使不能说一模一样,也可算得上极为相似,同样是四个计算组,就连性能也差距不大。A64FX的理论性能是2.7TFlop/s,sw26010的为3.06TFlop/s。仅就性能而言,2018年推出且工艺更先进的A64FX尚不及2015年的sw26010,足以说明神威超算开发团队在立项sw26010时独具慧眼。

A64FX架构介绍

从理论上讲,片上异构具有突出的功耗比优势,因为调度和传输浪费的计算性能较少。太湖之光的实测性能与理论性能之比高达74%,日本的“富岳”更是达到82%,而美国的Frontier由于是传统的CPU+加速卡架构,只有65%,但是Frontier功耗远低于“富岳”,很可能也明显低于中国的E级超算。这意味着芯片间调度过程中浪费的性能,被每个芯片优异的功耗表现省了回来。

由于美国的半导体封锁,中国超算芯片不可能运用先进的制程,单芯片功耗比表现不佳情有可原。但日本的富士通A64FX使用的制程与美国的几乎一样,性能表现上出现这么大的差距,只能是两国民用半导体产业内功相差甚远。

Frontier是由AMD主导打造的,AMD曾经在与英特尔的商业竞争中受挫,从而差点一蹶不振。2015年,AMD携带十年磨一剑的Zen架构再踏征程,在CPU方面与英特尔展开了惨烈的商业竞争。AMD还做GPU,与英伟达也杀得难解难分。伴随着竞争而来的是,CPU、GPU的功耗比陡峭地下降,性能迅猛地上升。

Frontier使用的是AMD Epyc 7A53 CPU,为了充分降低功耗,这款64核的CPU主频被限制在了2.0Ghz。虽然AMD不愿透露更多信息,外界普遍猜测这款号称为超算定制的CPU改进是有限的。AMD用于数据中心的芯片本来就有很多64核的芯片,其中有很多的基础频率就是2.0Ghz,将其用于超算,主要是限制主频+芯片特挑。除此之外,AMD的64核芯片早已形成了多条产品线,既有压低功耗的,也有像Epyc 7H12这样的高功耗高性能的芯片。

AMD部分64核数据中心服务器芯片

由于AMD的64核系列能够在商业市场赚大钱,进而投入更多成本进行优化,因此Epyc 7A53虽然投入精力不多,也能在超算市场打出一片天来。

Frontier核心计算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架构,熟悉游戏显卡的人不难想到近年来AMD游戏显卡的架构是RDNA2,两者之间是存在关系的。MI250X加速卡可视为一张专门为计算打造的显卡,众所周知美国的CPU设计技术领先世界,但很少有人知道美国的GPU设计技术更是和其他国家拉开了代差。其他国家独立自主研发的顶尖GPU,绝对性能与美国英伟达、AMD等巨头之间存在2-3个数量级的差异。

Frontier之所以能在节点数量远少于海洋之光和“富岳”的情况下,实现E级超算,关键就在于MI250X加速卡突出的性能和功耗比。一张MI250X能提供的理论双精度性能竟然有47.9TFLOP/s,是富士通A64FX的17倍,要是双精度运算全是超算应用中较多的矩阵运算,MI250X的理论性能还能进一步提高到95.7TFLOP/s。

MI250X的基本情况

MI250X加速卡这么强,不光是AMD本身的设计,每块加速卡上还集成了128GB HBM2e高带宽内存。现在的超算主要还是冯·诺依曼结构占主导,内存速度将直接影响计算速度,这种内存比普通的要快得多,目前却只有少数企业能够生产。

由于美国有着极为发达的民用芯片产业,因此Frontier作为美国首台E级超算,基本没在超算理论上费多少心,主要就是依靠近年来民用CPU、GPU功耗急剧下降,GPGPU(计算显示核心)蓬勃生长的浪潮,极大地提高了每个节点的性能而实现的。

面对此情此景,我们要做的,不是否定过去筚路蓝缕艰苦奋斗的国产超算成就,而要鼓励民用计算机产业努力升级,直面竞争。超算是计算机产业的皇冠,超算和民用芯片的关系有越来越大的趋势,只有我们民用计算芯片的宝石足够大、足够多,中国超算的皇冠才能更加璀璨。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

责任编辑:一鸣
超算 超算之争 超算五百强
观察者APP,更好阅读体验

省级督察组现场核实情况,遭故意封路阻挠

嫦娥六号成功发射!开启人类首次月球背面取样之旅

“美军还没撤,俄军就把这里占了”

土耳其暂停与以色列所有贸易

菲律宾称在黄岩岛已越过红线?中方回应