首个基于RISC-V的HPC集群
意大利E4ComputerEngineering公司可能大多数人都没有听过,但他们与EVIDEN合作打造的LEONARDO系统,却是目前世界上排名第6的超算电脑。
他们认为RISC-V是近十年来相对较新的架构,但随着越来越多的厂商推出带有矢量拓展的核心,并基于此打造出了量产落地的处理器,他们也开始探索RISC-V在HPC上的可行性。
于是,他们基于SiFive的HiFiveUnmatched开发板,打造成了首个基于RISC-V的HPC集群,MonteCimone。HiFiveUnmatched搭载的是SiFive的FreedomU740SoC,集成了4个U74CPU核心,而每个MonteCimone刀片服务器都搭载了两块HiFiveUnmatched开发板。
他们从2021年就开始这一项目,将其作为RISC-V在HPC应用上的试验床。而如今他们在MonteCimone第二版上,选择了基于算能的SG2042硬件,开展新一轮的测试与验证。
SG2042,RISC-V在HPC领域的新秀
尽管Esperanto推出了搭载了千核的RISC-V芯片,但其主要定位是AI加速器,且目前并没有太多公开的硬件落地。反倒是算能推出的SG2042,作为已经实际商用落地的首个高核心数RISC-VSoC,在Milk-V等公司的推动下,已经有不少主机搭载了这一高性能处理器,上文提到的MonteCimonev2就是典例。
发布于2022年末的SG2042,集成了64个平头哥的C920RISC-VCPU核心,CPU主频达到2.0GHz。其支持0.71版本的矢量拓展,L1、L2与LLC缓存分别为4MB、16MB、64MB,最高可扩展256GB的DDR4内存。超强的性能,以及120W的TDP,使其成了业内首个服务器级别的RISC-VCPU处理器。
Milk-V基于这一SoC,推出了评估板、主机、2U服务器以及16U集群等各种硬件,算能也将50份主机捐献给了RISC-V基金会。不过算能并不打算止步于此,今年Q1,他们计划发布最新的SG2044SoC。
SG2044将支持Vector1.0扩展和平头哥的Matrix扩展,并将64核CPU主频提升至2.5GHz,并通过LPDDR5x和PCIe5.0,把带宽进一步扩大到300GB/s。甚至SG2044计划将支持70亿参数的Llama7B,并做到40Token/s的生成速度。
写在最后
尽管RISC-V在HPC领域的创新突破令人期待后续的发力,但在实际的商用项目中,我们还是要对这未来可能会出现的转变提出疑问,比如考虑在HPC负载中,RISC-V相比别的架构能提供哪些优势?基于RISC-V的AI加速器又能不能在未来超算系统的构建中,成为用上最先进技术的架构?
这些都是HPC相关研究人员必须去考虑的问题,在各个厂商的不懈努力下,在RISC-V硬件上运行一个HPC节点已经相当容易了,但HPC是一个尤其讲究优化的任务,无论是架构、软件还是指令集上的优化,都能显著改善其运行效率,而其他架构已经有了多年的历史经验,RISC-V在这方面还需要迎头赶上。