站点图标 网创联盟

scaleX万卡超集群落地 中国AI算力格局从“单点突围”转向“生态博弈”

【环球网科技报道 记者 李文瑶】在全球AI竞赛进入以“万亿参数”和“万卡集群”为标志的规模化阶段时,中国算力产业也正面临一个战略抉择:是继续沿着封闭技术栈的路径追赶,还是开创一套基于开放协同的新竞争模式?

近日,在首届光合组织人工智能创新大会(HAIC2025)上,中科曙光发布全球领先的scaleX万卡超集群,给出了这样的答案:中国主流算力厂商,正集体转向以“开放架构”为核心的产业竞争新逻辑。

困局:“全链内卷”与“双重壁垒”下的行业焦虑

“如果大家都做全链条,最后可能谁都做不好。”中科曙光高级副总裁李斌在采访中道破了当前国产AI算力产业的竞争谜题。

过去几年,在国产化政策激励与AI市场爆发的双重驱动下,从芯片、加速卡、服务器到基础软件的各类厂商,普遍陷入了“全栈布局”的扩张冲动。其结果,并非形成合力,而是导致了严重的“全链内卷”。各家企业投入巨资构建从芯片到应用的小而全的“技术孤岛”,但这些孤岛之间接口不一、标准各异、互操作性差。

这种碎片化格局的直接代价转嫁给了用户。“用户最大的困扰是,有这么多芯片,我都要去适配和优化,投入成本非常高。”海光信息高级副总裁吴宗友指出,在这样的情况下客户也面临艰难的选型困境。“虽然总体都是国产化的趋势,但是你选哪一家呢?哪一家都做得不太好。”李斌坦言。这导致了一个悖论:尽管供给端繁荣,但需求端却因高昂的迁移成本和不确定性而徘徊。

更深层的挑战在于“性能墙”与“生态墙”的双重壁垒。一方面,单芯片性能,尤其是在先进制程受限的背景下,与国际顶尖水平存在客观代差。另一方面,英伟达通过CUDA生态构筑的软硬件护城河极其深厚,从学术界到工业界形成了强大的锁定效应。

“国产算力跟国际竞争的缺口……不是最大的瓶颈,更多的还是我们高端制造业里面行业本身的特点,然后跟最新的人工智能应用技术的结合,难点在这儿。”光合组织秘书长任京姆治龅愠隽斯丶钠恶ぃ沟盟懔δ岩宰幸瞪Α

破局:从“封闭全栈”到“开放分层”的竞争逻辑重构

破局之道,在HAIC2025上被清晰地概括为从“立体计算”到“开放计算”的战略演进。开放架构的本质,是重构竞争的基本单元。它不再强调单个企业战胜另一个企业,而是试图打造一个以共同标准、开放接口为纽带,融合了芯片、硬件、软件、应用等各环节优秀厂商的“产业平台”,去系统性挑战另一个由单一巨头主导的“垂直封闭帝国”。

这一平台的载体即光合组织。其生命力来源于一套旨在平衡竞争与合作的机制。任京樯埽米橹凹饶芄槐U洗蠹野炎约荷贸さ牧煊蜃龉ス兀贝蠹野严喙氐某晒帕酥笞约夯褂惺找妗保⑻乇鹎康鳌安荒艹源蠊埂薄M保橹涞绷恕爸匾墓┬瓒越悠教ā保胤降牟敌枨笥胱橹诘募际豕└苯恿樱煤献鞑凳翟谠诘纳桃导壑怠

同时,真正的开放,要求头部企业做出艰难但必要的战略收缩。中科曙光的行为具有风向标意义。任京嘎叮锕狻按右恍┨乇鹁淼木赫氖谐±锩娉烦隼戳恕保⑶摇敖衲暌惨徊降挠幸恍┦谐∪美焉汤锤伞薄

这意味着,中国头部IT企业正在摒弃“大而全”的固有发展模式,转向“精而强+生态赋能”的新定位。如曙光将资源聚焦于其最具优势的超大规模系统架构(如scaleX超节点)、高速互连网络(scaleFabric)和系统级调度管理,而将其他环节开放给生态伙伴。

海光则扮演了“底座赋能者”的角色。吴宗友表示,国内很多的AI芯片是跑在海光CPU上面的,海光选择开放HSL总线协议,使其他AI芯片厂商能够更便捷地与海光CPU互连。“我们把CPU的能力赋能给卡厂……最终的目的是把能力交给用户。”

而开放架构的技术实现,则遵循“分层解耦”与“协同优化”的原则。任京爬ㄎ骸暗谝桓鍪悄惚匦氚鸭扑憷锩娴娜盗瓷系哪训阃吹悖植憬怦睿殖梢豢橐豢椤诿恳徊闵隙加卸喔鲇判愠獭菏降睦醋觥A硗庖桓鍪悄惴植憬怦钪螅詈蟾鞑阒浠挂匦履芄恍纬梢桓鼋赳詈系淖刺!

scaleX万卡超集群是这一理念的落地。它并非追求在单芯片制程上对标,而是通过在系统架构、工程创新和网络互联等层面的“非对称突破”,实现整体竞争力的跃升:全球首创单机柜640卡超高密度集成,通过浸没相变液冷等技术,将算力密度提升20倍,PUE降至1.04。这从物理层面解决了大规模集群部署的能耗和空间瓶颈;基于首款国产400G类InfiniBand芯片的scaleFabric网络,实现400Gb/s带宽、亚微秒延迟,性能对标国际主流,且“部分能力超越海外同类产品研发路线图的2027年NVL576里程节点”。李斌指出,高速无损网络曾是关键代差,其突破对释放万卡集群算力至关重要。

同时,scaleX万卡超集群通过三级优化,将AI加速卡资源利用率提升55%,应对大模型训练中极致的并发I/O挑战;实现万级节点、十万级用户的管理,集群长期可用性达99.99%,将运维从“被动告警”变为“主动预测”。

攻防:瞄准生态薄弱环节与新一代客户

封闭生态的强大在于其统一和易用,但其壁垒也恰恰在于此。开放架构通过打造兼容多品牌加速卡(如摩尔线程、海光DCU等)和主流软件生态的“统一平台”,直接降低了用户从封闭生态迁移或尝试国产算力的门槛。吴宗友强调,开放架构是“帮助客户节省成本,而且大幅提升客户的优化效率”。

对于数量庞大的中小AI芯片设计公司、算法公司和行业ISV(独立软件开发商)而言,加入开放架构意味着获得了“入场券”。他们可以共享联盟提供的测试平台、认证体系、集成渠道甚至客户资源。吴宗友举例,小企业通过光合组织,其产品可能“不经意间就帮他推广了”。这种“生态虹吸”效应,能快速汇聚创新力量,形成对抗封闭生态的网络效应。

谁定义了今天的数据中心标准,谁就掌握了未来的算力主权。开放架构将互联网和云服务商作为关键争夺对象。吴宗友观察到,这些客户因采购规模巨大而“希望自己有更多的话语权”,因此对开放路线和开源技术表现出更高的接受度。

为此,海光推出了专门面向互联网客户的产品线,提供更深度的定制化服务。“国内厂商可以完全根据客户的需求去定制……某种程度上性价比是一致的。”吴宗友表示。这种从“标准化供给”到“联合定制”的转变,是国产算力体系打入主流商业市场的关键一步。

与封闭生态在通用大模型领域的“军备竞赛”路径不同,开放联盟更强调与垂直行业的深度结合。任京赋觯诮鹑凇⒁搅啤⒏叨酥圃斓刃幸担八懔Φ钠烤被岜茸鐾ㄓ么竽P鸵虻ヒ恍保嬲哪训阍谟凇靶幸底液AI应用专家的紧密结合”。

挑战:开放架构的凝聚力与可持续性考验

尽管蓝图清晰,但开放计算路径的成功远非定局。其面临的核心挑战在于如何维持一个多元化平台的长期凝聚力和创新效率。

“它一定是不能吃大锅饭,要是大锅饭的话,最后就没有人干了。”任京愠隽斯夂献橹卫淼奶粽健T诒曜贾贫ā⒅恫ü毕住⑹谐《┑シ峙涞确矫妫绾紊杓埔惶坠健⑼该鳌⒖稍て诘墓嬖颍繁9毕渍呋竦孟嘤乇ǎ乐埂按畋愠怠毙形枪夂献橹芊癯志玫墓丶

同时,组织成员之间在市场竞争中本身存在直接或间接的竞争关系。如何界定“竞争前的合作”与“市场竞争”的边界,需要高度的商业智慧和组织艺术。

分层解耦在带来灵活性的同时,也增加了系统级协同优化的复杂度。李斌坦言,超大规模集群中,“任何一点的小问题都会放大到整个系统”。开放架构要求不同厂商的模块通过标准接口紧密协作,并达到极致性能,这比单一厂商内部研发的协调难度更高,可能影响创新迭代速度。

此外,在追赶过程中,还需要应对国际巨头持续快速的技术演进。李斌清醒地认识到,在芯片能效等方面,“我们也是清晰地看到了客观的差距”。

最终,开放架构的成败取决于市场是否买单。用户,尤其是那些将AI作为核心生产力的企业,对算力平台的稳定性、易用性和工具链成熟度有着苛刻要求。开放生态需要证明,其综合体验不亚于甚至在某些方面优于封闭生态。这需要时间积累和持续地投入,以形成一个“技术成熟、用户增加、应用丰富、生态繁荣”的正向循环。

未来:一场关于AI算力产业规则的全球博弈

HAIC2025及scaleX万卡超集群的亮相,标志着中国AI算力产业主体,正尝试构建新的发展路径。

这场竞争的本质,不再是简单的技术参数对标,而是两种产业组织模式的较量:一种是基于垂直整合、软硬件深度绑定的“中心化控制”模式;另一种是基于开放标准、模块化分工、生态化协作的“分布式创新”模式。

中国产业界选择的开放路径,背后是对自身产业结构和创新特点的深刻认知:我们拥有全球最完整的电子信息制造产业链、最丰富的AI应用场景,以及一大批在细分领域极具活力的中小企业。通过开放架构将这些分散的优势系统化地组织起来,或许能爆发出超越单个巨头线性研发的创新能量。

正如任京庖蛔渥芙嵛印暗サ阃黄啤弊呦颉凹捍葱隆薄@畋笤蛘雇ü偶芄梗AI企业可以“降低智算集群研发门槛”,从技术“单点突围”走向产业“生态共进”。

退出移动版