Cerebras Systems成立于2016年,其核心使命是解决人工智能,尤其是大规模深度学习模型训练所面临的算力瓶颈。与传统方法(如使用成千上万颗GPU组成集群)不同,Cerebras选择了极具颠覆性的技术路径:晶圆级集成。
核心技术:Wafer-Scale Engine(WSE)
WSE是Cerebras技术的基石。它不是在单个晶圆上切割出成百上千个小芯片(如GPU或CPU),而是将整个晶圆(例如直径约46平方厘米)作为一个完整的、功能统一的巨型芯片来设计和制造。
- 空前规模:以WSE-3(2024年发布)为例,它拥有高达4万亿个晶体管,核心(AI计算单元)数量达到惊人的90万个,片上SRAM内存容量达44GB。其芯片面积是顶级GPU的数十倍甚至上百倍。
- 突破性互联:在如此巨大的面积上,实现所有核心间的高速、低延迟通信是最大挑战。Cerebras设计了高达220 Pb/s的总片上互联带宽,确保90万个核心能像一个统一的计算单元那样协同工作,避免了传统多芯片集群中因数据跨节点交换带来的巨大通信开销和延迟。
- 稀疏计算加速:专门针对神经网络计算中常见的稀疏性(大量零值或无效计算)进行硬件优化,可以跳过无效计算,显著提升实际有效算力(FLOPS)的利用率。
产品系统:CS系列
Cerebras将其WSE芯片封装成完整的AI计算系统,即CS系列(如CS-3)。一个标准机柜即是一个强大的AI超级计算机。
- 集成化设计:系统集成了计算(WSE)、内存、冷却和电源。用户无需像构建GPU集群那样复杂地组装服务器、网络交换机和存储系统。
- 简化部署与编程:CS系统在软件层面呈现为一个逻辑上统一的加速器。开发者可以使用常见的AI框架(如PyTorch、TensorFlow)进行编程,Cerebras的软件栈会自动处理在巨型芯片上的模型并行化和数据流调度,极大降低了大规模分布式训练的编程复杂性。
核心优势与应用场景
- 极致性能与速度:对于参数量达千亿甚至万亿级别的大语言模型(LLM),CS系统能够将整个模型装载到其巨大的片上内存中,避免在外部存储间频繁交换数据,从而将训练时间从数月缩短到数周甚至数天。
- 简化性与易用性:相比需要数百台服务器、复杂高速网络和专门运维团队的GPU集群,CS系统提供了“开箱即用”的一体化解决方案,大幅降低了基础设施的复杂度和运维成本。
- 能效优势:通过减少数据长距离移动的能耗,以及高效的稀疏计算,在完成相同AI训练任务时,通常具有更好的能效比。
- 主要场景:
- 大语言模型(LLM)训练与推理:是其最突出的应用领域。
- 科学计算:如气候模拟、药物发现、流体动力学等需要巨大计算量的HPC-AI融合应用。
- 多模态模型:训练同时处理文本、图像、语音的复杂AI模型。
与传统GPU集群的对比
Cerebras的WSE架构与NVIDIA GPU集群代表了AI算力的两种不同范式:
- 架构哲学:Cerebras是“大一统”的巨型集成芯片,追求极致的片上通信;GPU集群是“分布式”的众多小芯片通过外部网络(如InfiniBand)连接。
- 编程模型:在CS系统上,程序员视角更接近单机大内存编程;GPU集群则需要深入掌握分布式并行编程和优化技术。
- 适用规模:对于超大规模模型,CS系统在简化性和性能上优势明显;对于中小规模或需要高度灵活性的任务,GPU集群的生态和通用性更胜一筹。
总而言之,Cerebras通过其晶圆级引擎技术,为AI计算领域提供了一种突破性的硬件解决方案。它并非旨在替代所有GPU,而是在最大、最复杂的AI模型训练和科学计算挑战面前,提供了一条更高性能、更简单易用的独特路径,持续推动着人工智能算力边界的前沿探索。