站点图标 网创联盟

今日科技观察|Grok 4.5工业私测

Grok 4.5先在火箭厂和汽车厂跑,实验室之外的另一种验证

6月28日,马斯克在X平台宣布,其最新模型Grok 4.5已进入SpaceX和Tesla内部私测阶段。

Grok 4.5基本参数:

底层架构:xAI自研1.5万亿参数V9基础架构

补充训练:引入Cursor IDE编程数据

内部评估:能力接近甚至超越Claude Opus 4.8

强化学习训练仍在持续优化,外部访问时间未定

马斯克同时透露,SpaceX计划今年每月发布一个全新训练的模型。

为什么值得关注:

这是AI前沿模型直接在工业环境(火箭制造、汽车量产)中首轮验证的罕见案例。相较于实验室基准,SpaceX和Tesla代表的是更高复杂度、更高容错成本的真实工程场景。

引入Cursor数据做补充训练的选择也很清晰:xAI在快速追平编程能力短板上不绕弯子。这个方向与当前各家实验室重点布局Agentic Coding高度一致,Grok 4.5的工业私测,在某种意义上也是Agentic Coding能力的实战压测。

AI模拟创业,七成模型“破产”

据The Decoder 6月28日报道,普林斯顿大学研究团队推出CEO-Bench基准,让AI Agent在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。

最终盈利排行(最佳运行):

14个测试模型中,仅3款在最佳运行中盈利超过初始资本。其余模型均在模拟结束前破产。

这个结果挑战了什么:

一个不调用任何语言模型、仅依赖固定规则的启发式算法,以1576万美元的盈利超越了除前三名外的所有AI模型。这直接戳穿了"更强的推理能力等于更强的商业决策能力"这一预设。

多数模型的失败不在于单轮决策,而在于长周期策略的连贯性――它们无法在500天的时间跨度内维持一致的经营方向。简单规则在这里的竞争力,恰恰暴露了当前顶级AI在"持续决策"上的明显短板。

CEO-Bench的价值在于将AI能力评估从"回答问题"扩展到"跨时间步的持续决策"――这对企业评估AI在实际经营中的可用边界,提供了比传统基准更务实的参考框架。

AI打《文明VI》:能造核弹,却不主动看地图

据IT之家6月28日报道,英国前首相府数据科学家Liam Wilkinson为四款顶级AI模型搭建了含76个MCP工具的《文明VI》对局环境,进行了23场对局。

标志性事件: Claude扮演葡萄牙时,因法国文化胜利逼近,花费50回合研发并使用核武器摧毁图卢兹――但最终仍被法国以外交胜利击败。

关键数据:

企业启示:

这项研究的核心结论颇具说服力:AI的战略短板不在于智识层面(它会造核弹、会算战略价值),而在于两个行为缺陷:

感知盲区:不主动收集全局信息,靠被动触发

知行差距:制定了计划,执行率不足七成

这与普林斯顿CEO-Bench的发现高度吻合:长时间复杂任务中,AI的跨步连贯性是当前明确的能力天花板。

对企业部署AI Agent的实际启示:高智能不等于高可靠。凡是需要持续状态感知和多步骤执行的工作流,仍需设计明确的触发机制与人工检查节点,而不是假设AI会主动"抬头看路"。

新浪发布3B参数开源推理模型

据The Decoder 6月28日报道,新浪发布仅3B参数的开源推理模型VibeThinker-3B。

模型表现:

核心假说与长远意义:

研究团队提出"参数压缩-覆盖假说":逻辑推理依赖少数可压缩的模式,而广泛世界知识仍需大参数存储。

这个假说若成立,意味着参数量大小不是推理能力的决定因素,而是知识覆盖度的决定因素。3B参数可在消费级设备本地运行,若数学编程能力真实可靠,部署成本优势显著。

但"推理强、知识弱"的特性也划定了清晰边界――适合代码生成、数学证明等结构化任务,不适合需要广泛领域知识的开放问答场景。更重要的是,它为未来"小参数推理引擎+外部知识库"的混合架构提供了理论依据,这条路线在边缘端和企业私有部署场景中具有明显的实践吸引力。

结语

AI的能力边界正在被深度测量。

Grok 4.5选择工业私测而不是先刷榜,是用真实场景替代实验室基准。CEO-Bench和《文明VI》研究从两个方向揭示了同一个短板――AI可以在单轮任务上表现出色,但在需要持续状态感知和长周期策略一致性的场景中,连规则算法都可能跑赢它。VibeThinker-3B则从另一个角度揭示了能力的结构:推理可以压缩,知识不能。

这些发现对企业部署AI Agent的实际指导意义比任何基准排行都更直接:把AI用在结构清晰、周期可控的任务上,在长周期动态决策中设计人工介入点,在需要广泛知识判断的场景中不要依赖小模型。 能力边界越清晰,用对地方的概率就越高。

退出移动版