今日科技观察｜Grok 4.5工业私测

揽月听风

5 小时前

Grok 4.5先在火箭厂和汽车厂跑，实验室之外的另一种验证

6月28日，马斯克在X平台宣布，其最新模型Grok 4.5已进入SpaceX和Tesla内部私测阶段。

Grok 4.5基本参数：

底层架构：xAI自研1.5万亿参数V9基础架构

补充训练：引入Cursor IDE编程数据

内部评估：能力接近甚至超越Claude Opus 4.8

强化学习训练仍在持续优化，外部访问时间未定

马斯克同时透露，SpaceX计划今年每月发布一个全新训练的模型。

为什么值得关注：

这是AI前沿模型直接在工业环境（火箭制造、汽车量产）中首轮验证的罕见案例。相较于实验室基准，SpaceX和Tesla代表的是更高复杂度、更高容错成本的真实工程场景。

引入Cursor数据做补充训练的选择也很清晰：xAI在快速追平编程能力短板上不绕弯子。这个方向与当前各家实验室重点布局Agentic Coding高度一致，Grok 4.5的工业私测，在某种意义上也是Agentic Coding能力的实战压测。

AI模拟创业，七成模型“破产”

据The Decoder 6月28日报道，普林斯顿大学研究团队推出CEO-Bench基准，让AI Agent在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。

最终盈利排行（最佳运行）：

14个测试模型中，仅3款在最佳运行中盈利超过初始资本。其余模型均在模拟结束前破产。

这个结果挑战了什么：

一个不调用任何语言模型、仅依赖固定规则的启发式算法，以1576万美元的盈利超越了除前三名外的所有AI模型。这直接戳穿了"更强的推理能力等于更强的商业决策能力"这一预设。

多数模型的失败不在于单轮决策，而在于长周期策略的连贯性――它们无法在500天的时间跨度内维持一致的经营方向。简单规则在这里的竞争力，恰恰暴露了当前顶级AI在"持续决策"上的明显短板。

CEO-Bench的价值在于将AI能力评估从"回答问题"扩展到"跨时间步的持续决策"――这对企业评估AI在实际经营中的可用边界，提供了比传统基准更务实的参考框架。

AI打《文明VI》：能造核弹，却不主动看地图

据IT之家6月28日报道，英国前首相府数据科学家Liam Wilkinson为四款顶级AI模型搭建了含76个MCP工具的《文明VI》对局环境，进行了23场对局。

标志性事件： Claude扮演葡萄牙时，因法国文化胜利逼近，花费50回合研发并使用核武器摧毁图卢兹――但最终仍被法国以外交胜利击败。

关键数据：

企业启示：

这项研究的核心结论颇具说服力：AI的战略短板不在于智识层面（它会造核弹、会算战略价值），而在于两个行为缺陷：

感知盲区：不主动收集全局信息，靠被动触发

知行差距：制定了计划，执行率不足七成

这与普林斯顿CEO-Bench的发现高度吻合：长时间复杂任务中，AI的跨步连贯性是当前明确的能力天花板。

对企业部署AI Agent的实际启示：高智能不等于高可靠。凡是需要持续状态感知和多步骤执行的工作流，仍需设计明确的触发机制与人工检查节点，而不是假设AI会主动"抬头看路"。

新浪发布3B参数开源推理模型

据The Decoder 6月28日报道，新浪发布仅3B参数的开源推理模型VibeThinker-3B。

模型表现：

核心假说与长远意义：

研究团队提出"参数压缩-覆盖假说"：逻辑推理依赖少数可压缩的模式，而广泛世界知识仍需大参数存储。

这个假说若成立，意味着参数量大小不是推理能力的决定因素，而是知识覆盖度的决定因素。3B参数可在消费级设备本地运行，若数学编程能力真实可靠，部署成本优势显著。

但"推理强、知识弱"的特性也划定了清晰边界――适合代码生成、数学证明等结构化任务，不适合需要广泛领域知识的开放问答场景。更重要的是，它为未来"小参数推理引擎+外部知识库"的混合架构提供了理论依据，这条路线在边缘端和企业私有部署场景中具有明显的实践吸引力。

结语

AI的能力边界正在被深度测量。

Grok 4.5选择工业私测而不是先刷榜，是用真实场景替代实验室基准。CEO-Bench和《文明VI》研究从两个方向揭示了同一个短板――AI可以在单轮任务上表现出色，但在需要持续状态感知和长周期策略一致性的场景中，连规则算法都可能跑赢它。VibeThinker-3B则从另一个角度揭示了能力的结构：推理可以压缩，知识不能。

这些发现对企业部署AI Agent的实际指导意义比任何基准排行都更直接：把AI用在结构清晰、周期可控的任务上，在长周期动态决策中设计人工介入点，在需要广泛知识判断的场景中不要依赖小模型。能力边界越清晰，用对地方的概率就越高。