①摩爾線程新一代全功能GPU架構(gòu)“花港”,以及基于“花港”架構(gòu)的AI訓(xùn)推一體芯片“華山”和專攻高性能圖形渲染的芯片“廬山”。 ②中國工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民表示,國產(chǎn)GPU芯片要實(shí)現(xiàn)生態(tài)自立,實(shí)現(xiàn)從“能跑”到“愿意用。
《科創(chuàng)板日報(bào)》12月20日訊(記者 黃心怡)在今日舉行的首屆MUSA開發(fā)者大會上,摩爾線程發(fā)布新一代全功能GPU架構(gòu)“花港”,以及基于“花港”架構(gòu)的AI訓(xùn)推一體芯片“華山”和專攻高性能圖形渲染的芯片“廬山”。
同時(shí),摩爾線程正式推出了夸娥萬卡智算集群,搭載自研“長江”智能SoC 芯片的AI算力本 MTT AIBOOK。

《科創(chuàng)板日報(bào)》記者在現(xiàn)場看到,當(dāng)虹科技、中望軟件等多家科創(chuàng)板上市公司與摩爾線程開展合作。其中,當(dāng)虹科技BlackEye多模態(tài)空間大模型基于摩爾線程GPU,滿足超高清直播實(shí)時(shí)轉(zhuǎn)碼、離線視頻增強(qiáng)等等高性能需求;中控技術(shù)的時(shí)間序列大模型與摩爾線程的GPU完成了適配;中望軟件與摩爾線程推出了全棧國產(chǎn)化三維CAD一體化解決方案,適配多種國產(chǎn)CPU與操作系統(tǒng)。
▍新一代GPU架構(gòu)“花港”發(fā)布
摩爾線程創(chuàng)始人、董事長兼CEO張建中介紹,新發(fā)布的GPU架構(gòu)“花港”, 基于新一代指令集,算力密度提升50%;支持從FP4到FP64的全精度端到端計(jì)算,新增MTFP6/MTFP4及混合低精度支持。集成新一代異步編程模型,優(yōu)化任務(wù)調(diào)度與并行機(jī)制;通過自研MTLink高速互聯(lián)技術(shù),支持十萬卡以上規(guī)模智算集群擴(kuò)展。

基于“花港”架構(gòu),摩爾線程公布了未來將發(fā)布的兩款芯片技術(shù)路線:
“華山”專注AI訓(xùn)推一體與超大規(guī)模智能計(jì)算。集成新一代異步編程與全精度張量計(jì)算單元,支持從FP4至FP64的全精度計(jì)算,為萬卡級智算集群提供算力支撐。

“廬山”專攻高性能圖形渲染。在圖形性能方面,AI計(jì)算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍。集成AI生成式渲染、UniTE統(tǒng)一渲染架構(gòu)及全新硬件光追引擎,為3A游戲、高端圖形創(chuàng)作提供算力支持。
本次大會正式發(fā)布了夸娥萬卡智算集群,浮點(diǎn)運(yùn)算能力為10Exa-Flops,訓(xùn)練算力利用率(MFU)在Dense大模型上達(dá)60%,MOE大模型上達(dá)40%,有效訓(xùn)練時(shí)間占比超過90%,訓(xùn)練線性擴(kuò)展效率達(dá)95%,與國際主流生態(tài)高度兼容。

摩爾線程公布了MTT C256超節(jié)點(diǎn)的架構(gòu)規(guī)劃。該產(chǎn)品采用計(jì)算與交換一體化的高密設(shè)計(jì),旨在系統(tǒng)性提升萬卡集群的訓(xùn)練效能與推理能力,支撐下一代超大規(guī)模智算中心建設(shè)。

在具身智能方面,摩爾線程推出MT Lambda具身智能仿真訓(xùn)練平臺,推出基于智能SoC芯片“長江”、AI模組MTT E300和夸娥智算集群“端云結(jié)合”的MT Robot具身智能解決方案,并宣布將于2026年第一季度開源關(guān)鍵仿真加速組件Mujoco-warp-MUSA,以助力機(jī)器人產(chǎn)業(yè)研發(fā)效率提升。
此外,摩爾線程發(fā)布會上還發(fā)布面向開發(fā)者的AI算力本 MTT AIBOOK,搭載自研“長江”智能SoC,提供高達(dá)50TOPS的端側(cè)AI算力。同時(shí)預(yù)告了基于“長江”SoC打造的迷你型計(jì)算設(shè)備MTT AICube。
▍國產(chǎn)GPU芯片要實(shí)現(xiàn)生態(tài)自立
英偉達(dá)CUDA軟件系統(tǒng)生態(tài)被業(yè)內(nèi)普遍認(rèn)為是其最大護(hù)城河,也是國產(chǎn)GPU廠商的薄弱之處。
中國工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民表示,國產(chǎn)GPU芯片要實(shí)現(xiàn)生態(tài)自立,實(shí)現(xiàn)從“能跑”到“愿意用。
“真正決定主權(quán)AI生態(tài)成敗的,在于是否有足夠多的開發(fā)者愿意長期在這套棧上寫代碼。開發(fā)者是生態(tài)的核心資源,國產(chǎn)平臺需要解決遷移成本太高、工具鏈不成熟,文檔/社區(qū)與支持不足。實(shí)現(xiàn)從‘能用’到‘愿用’的根本性轉(zhuǎn)變,關(guān)鍵在于開發(fā)體驗(yàn)?!?/p>
目前,摩爾線程對MUSA 軟件架構(gòu)升級到5.0版本,兼容 TileLang、Triton 等編程語言,核心計(jì)算庫muDNN實(shí)現(xiàn)GEMM/FlashAttention效率超98%,通信效率為97%,編譯器性能提升3倍,并集成高性能算子庫。后續(xù),計(jì)劃逐步開源計(jì)算加速庫、通信庫及系統(tǒng)管理框架在內(nèi)的核心組件,向開發(fā)者社區(qū)開放底層能力。
摩爾線程創(chuàng)始人、董事長兼CEO張建中還透露,即將推出兼容跨代GPU指令架構(gòu)的中間語言MTX、面向渲染+AI融合計(jì)算的編程語言muLang、量子計(jì)算融合框架MUSA-Q,以及計(jì)算光刻庫muLitho。
對于國產(chǎn)AI芯片軟件生態(tài)存在的“內(nèi)卷”與碎片化問題,鄭緯民認(rèn)為,多家廠商各自構(gòu)建軟件棧與接口標(biāo)準(zhǔn),下游開發(fā)者需要為不同平臺重復(fù)適配。同時(shí),缺乏統(tǒng)一的加速器接口與部分關(guān)鍵組件的開源標(biāo)準(zhǔn),實(shí)現(xiàn)互操作難度大。在生態(tài)資源有限的前提下,容易陷入低水平重復(fù)建設(shè)與“內(nèi)卷”競爭。
鄭緯民表示,應(yīng)建立面向國產(chǎn)加速器的統(tǒng)一或高度兼容的接口標(biāo)準(zhǔn),減少軟件層的無謂分裂。通過產(chǎn)業(yè)聯(lián)盟機(jī)制推動芯片廠商、框架團(tuán)隊(duì)、系統(tǒng)廠商與頭部應(yīng)用方開展聯(lián)合優(yōu)化。在關(guān)鍵基礎(chǔ)軟件比如通信庫、編譯器框架、異構(gòu)調(diào)度系統(tǒng)等上形成共享的開放底座。
鄭緯民呼吁,產(chǎn)業(yè)團(tuán)結(jié)與協(xié)同對于緩解“應(yīng)用不足、生態(tài)薄弱”尤為關(guān)鍵,只有當(dāng)國產(chǎn)AI卡在真實(shí)業(yè)務(wù)中被大規(guī)模使用生態(tài)才會具備自我強(qiáng)化的正反饋。
▍“萬卡甚至十萬卡集群”是必選項(xiàng)
會上發(fā)布的摩爾線程新一代GPU架構(gòu)“花港”,支持十萬卡以上規(guī)模智算集群擴(kuò)展。
鄭緯民在演講中提到, 從國產(chǎn)萬卡至十萬卡系統(tǒng)很難,但從主權(quán)AI基建角度,是不得不走的一步。因?yàn)槟P蜁r(shí)代的基本單位是集群總算力,不是單卡性能。預(yù)訓(xùn)練超大規(guī)模模型、服務(wù)國民級推理需求,需要持續(xù)可用的萬卡級訓(xùn)練集群。
“目前在工程上的主要挑戰(zhàn)在于,在沒有專有封閉互連的情況下,基于以太網(wǎng)等通用網(wǎng)絡(luò)實(shí)現(xiàn) All-Reduce 與低延遲通信是關(guān)鍵難點(diǎn)。可靠性與運(yùn)維有待提升,萬卡集群單點(diǎn)故障是常態(tài),需要斷點(diǎn)續(xù)訓(xùn)、容錯訓(xùn)練算法、自動化運(yùn)維與監(jiān)控?!编嵕暶穹Q。
在能耗與供電散熱方面,十萬卡規(guī)模對應(yīng)的是百兆瓦級電力需求,需要機(jī)房、園區(qū)級綜合設(shè)計(jì)。
鄭緯民表示,國產(chǎn)集群實(shí)踐表明,在“通用網(wǎng)絡(luò)+自研通信庫+軟硬件”協(xié)同設(shè)計(jì)下,仍然可以構(gòu)建“可用”的大規(guī)模系統(tǒng),但需要長期持續(xù)的工程投入。
