芯片大厂纷纷入坑Chiplet。
8月29日报道,一年一度的顶级芯片盛会Hot Chips正在举行,作为全球芯片架构创新的风向标,今年的Hot Chips继续披露工业界前沿研发成果和突破性技术,覆盖人工智能(AI)训练及推理、Chiplet、近存计算、处理器、光子计算、晶圆级集群、神经拟态计算等热门领域。本届大会为期三天,NVIDIA、高通、英特尔、AMD、谷歌、SK海力士、三星、Arm、IBM等芯片巨头,Meta、微软等科技巨头,晶圆级芯片创企Cerebras、光子AI芯片创企曦智科技、稀疏化计算AI芯片创企墨芯人工智能、RISC-V服务器处理器创企Ventana、RISC-V IP供应商SiFive等具有代表性的创业公司,均发表了展现当前芯片工业界前沿趋势的主题演讲。期间,英特尔揭秘了其第六代至强数据中心处理器的架构变化,详解了新一代架构、E核和P核处理器技术,包括内存和I/O子系统的设计改进,并披露2023~2025年的最新产品路线图。
英特尔宣布将在明年推出两款采用Intel 3工艺技术的至强新品——为计算密集型和人工智能工作负载优化的高性能核心(P核)和针对高密度和横向扩展工作负载优化的高能效核心(E核)。E核至强处理器(代号Sierra Forest)将在2024年上半年问世,P核至强处理器(代号(Granite Rapids)将紧随其后登场。总体而言,英特尔将至强处理器称作“人工智能的最佳CPU”,Granite Rapids可将AI工作负载性能提升2-3倍,实现2.8倍的更好内存带宽,内存模组MCR DIMM带宽可提高30-40%;而Sierra Forest可在机架级别将机架密度提高250%,将每瓦性能提高240%。
英特尔Fellow、数据中心处理器架构师Chris Gianos发表了主题为《为灵活性和价值而设计的未来英特尔至强处理器架构》演讲。未来的英特尔至强处理器引入了一种新架构,能提供必要的可扩展性、能效、性能和多功能性,满足日益增长的数据中心工作负载和部署需求。该架构采用模块化设计方式,通过fabric技术把模块化die互连,实现灵活的架构,可将独立的计算和I/O的chiplets(常译为“芯粒”、“小芯片”)进行灵活组合,并借助EmiB封装技术实现高带宽和低延迟。基于该架构的模块化SoC包含通用IP、固件、操作系统、平台组件等组件。
当前最新一代英特尔至强可扩展处理器(代号Sapphire Rapids)最高支持8个DDR5通道和80个PCIe 5.0/CXL 1.1连接通道。相比之下,AMD的EPYC 4数据中心处理器拥有12个DDR5通道和128个PCIe通道。而第六代至强将在通道数量和内存带宽上取得显著进步,内存配置转向12个通道的DDR/MCR、1-2DPC,先进I/O支持136个通道的PCIe 5.0/CXL 2.0以及6个UPI链路(144通道),内存带宽相比Sapphire Rapids将提高近3倍。值得一提的是服务器内存模组MCR DIMM,据称内存带宽会比传统DDR5大幅提升。早在今年3月英特尔宣布更新其数据中心和人工智能路线图时,就曾演示过一个带有新MCR DIMM模块的的预生产Granite Rapids至强,速率高达8800MT/s,这几乎是当前服务器平台上可用的DDR5(4400~4800MT/s)速率的两倍。下一代至强架构具有可扩展性,将提供P核和E核版本,支持1S-8S规格的P核、1S-2S规格的E核。基于这些功能,不同工艺节点之间能够进行匹配,从而得以实现性能和能效的最佳平衡。得益于I/O和内存子系统的进步,这一架构提供了高性能和平台灵活性的优化,逻辑单片计算集群相较以往的产品提供了更好的每瓦特性能和每线程性能,并为未来代号为Granite Rapids和Sierra Forest的英特尔至强处理器奠定基础。
能效已经成为现代云计算和数据中心改变高性能服务器处理器设计的关键因素。对于数据中心来说,省电才是硬道理。英特尔高级首席工程师、架构师Don Soltis在Hot Chips上发表的《基于高能效核心(E-Core)的英特尔至强处理器:下一代高性能、高能效计算》主题演讲,便重点介绍了代号为Sierra Forest的全新英特尔至强处理器的架构设计细节,如何在消耗同样能源的情况下,让每个芯片完成更多的计算工作。英特尔探讨了其首款高能效核心E核至强如何补充现有和未来的英特尔高性能核心P核处理器解决方案,以提供一个高度通用的平台,最大限度地提高计算性能、最大限度地降低功耗。
英特尔观察到客户需求正在变化:对高性能CPU核心的需求持续不断;对更高密度和更高每瓦性能的CPU核心的需求也不断增长;不同工作负载及应用,需要在核心性能、核心能效与核心密度之间取得平衡;扩展部署模型要求增加功率、I/O、带宽和内存。
针对这些趋势,英特尔通过P核和E核来满足性能和效率需求。
英特尔第六代至强可扩展处理器将提供P核和E核两种版本的核心架构,其中P核至强Granite Rapids针对计算密集型和AI工作负载的性能进行了优化,E核至强Sierra Forest针对高密度和横向扩展工作负载的能效进行了优化。
P核和E核均基于最新的Intel 3工艺技术(相当于7nm工艺),支持客户轻松优化,具有硬件兼容、软件栈共享、全面安全性等特点,并在TCO和每瓦性能上取得进步。
两种架构拥有不同的功能集。P核采用经验证的至强架构,优化了每核性能并提高了能效,新软件功能包括支持用于AI/ML的FP16的高级矩阵扩展(AMX)、长度256位的内存加密秘钥、Code SW预取和取指分支提示、单线程MBA+L2高速缓存分配技术/代码和数据优先级(CAT/CDP)。
其微架构对性能进行优化,包括:64KB、16路指令高速缓存(I-cache),改进分支预测和错误恢复,3-cycle FP乘法,更突出的内存请求和预取能力。
E核采用全新英特尔至强架构,拥有优化的能效吞吐量性能,软件功能支持BF16、FP16转换,并支持HLAT、CMPccXADD、LAM、LASS、AVX-IFMA、AVX-DOT-PROD-INT8等。
该处理器将拥有144个核心,提供单插槽和双插槽配置,微架构对能效进行优化,包括64kB I-cache、6-wide解码器、5-wide分配器、8-wide retire、2核或4核共享4MB L2、支持处理多达64个outstanding misses。英特尔声称在机架级别,与当前的Sapphire Rapids相比,E核至强处理器Sierra Forest面向云计算可将机架密度提高250%,将每瓦性能提高240%。
从英特尔对下一代数据中心处理器架构的投资,可以看到面对计算多样性,提高算力涉及的技术跨度更加广泛,需要兼顾到计算单元、I/O单元、内存的可扩展性,更加高速的互连网络,灵活高效的模块化功能,电源管理能力等等。进入高算力时代,英特尔和AMD这两大数据中心处理器巨头都选择走上了Chiplet路线,在处理器封装大量独立的计算和I/O chiplets,让芯片设计如同“搭积木”般成为可能。这种将I/O功能从计算芯片中分离出来的设计正在风靡数据中心芯片设计行业,不仅是数据中心CPU,英伟达的A100 GPU、AMD的AI芯片MI300、特斯拉Dojo超级计算机的D1芯片等均是Chiplet产品。