面壁智能联合清华等开源中国首个基于华为N腾训练的 1.58-bit 端侧大模型 BitCPM-CANN

释放双眼,带上耳机,听听看~!
面壁智能联合清华大学、OpenBMB 开源社区,今天正式发布并开源其在低比特大模型训练方向的最新成果 ――BitCPM-CANN。

IT之家 5 月 25 日消息,面壁智能联合清华大学、OpenBMB 开源社区,今天正式发布并开源其在低比特大模型训练方向的最新成果 ――BitCPM-CANN。

官方表示,这是中国首个完全基于国产算力平台(华为N腾)实现端到端训练并开源的三值(1.58-bit)大模型。从量化算子、训练算法到全链路框架,BitCPM-CANN 均在华为N腾上原生完成,包含 0.5B、1B、3B、8B 四个模型尺寸,与同尺寸 MiniCPM4 全精度家族逐项对照评测,性能表现优异。

微信图片_20260526103409_1607_338.png

相比传统 BF16 精度,BitCPM-CANN 在推理阶段释放约 6 倍显存红利,同时将模型能力保留率维持在 90%C97.2%。

微信图片_20260526105108_1612_338.png

官方表示,对手机产业来说,6 倍的显存红利意味着,一个 8B 参数的 BitCPM-CANN 大模型,可以轻松运行在当前主流旗舰手机之上。

此外,面壁智能基于 MindSpeed × Megatron-LM 主干搭建了完整的低比特训练底座,包含环境适配、32K 长序列支持、并行策略、融合算子等完整工程体系。从此,所有面向N腾的低比特训练工作,都可建立在同一套公共基础设施之上。

BitCPM-CANN 0.5B / 1B / 3B / 8B 全系列模型权重现已开源,IT之家附链接如下:

HuggingFace:https://huggingface.co/collections/openbmb/bitcpm-cann

ModelScope:https://modelscope.cn/collections/OpenBMB/BitCPM-CANN

温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
热点资讯

OpenAI GPT-5.6 模型曝下月发布:AI 上下文 150 万 tokens

2026-5-26 12:08:47

热点资讯

消息称台积电 2026H2 将调升 3nm 晶圆代工报价,涨幅最大 15%

2026-5-27 11:16:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索