今日科技观察｜GPT-5.5再升级；Gemini原生操控屏幕；NSA痛失Mythos；Agent基础设施争夺升温

释放双眼，带上耳机，听听看~！

GPT-5.5再升级；Gemini原生操控屏幕；NSA痛失Mythos；Agent基础设施争夺升温

【资讯速览】

OpenAI升级GPT-5.5 Instant，强化隐含意图理解与实用推荐，免费用户明日接入

Google将"计算机操作"原生集成至Gemini 3.5 Flash，屏幕操控从实验功能升格为主力模型标配

特朗普政府对Anthropic的出口管制反噬情报机构，NSA失去Mythos访问权

火山引擎发布Agent Ready基础设施，日均Token调用突破180万亿

阿里通义千问发布业界首个原生语言世界模型Qwen-AgentWorld，AgentBench超越GPT-5.4

GPT-5.5 Instant三轮迭代，头部AI从参数竞赛转向"更懂人"

6月25日，OpenAI宣布对GPT-5.5 Instant进行新一轮升级，重点落在三件事上：理解用户隐含意图、处理多条件复杂约束、提升购物与本地服务推荐的连贯性。付费用户当日即可体验，免费用户将于6月26日接入。

轮次

时间

升级方向

第一轮

5月5日首发

降低52.5%幻觉率

第二轮

中间版本

优化表达风格

第三轮

6月25日

强化意图理解与实用推荐

GPT-5.5 Instant三轮迭代回顾

GPT-5.5 Instant是OpenAI目前使用量最大的模型，它的迭代方向比旗舰模型的发布更能反映战略重心。三轮升级每一条在卷参数――全部指向"让模型更懂人、更好用"。这说明头部AI公司在消费级战场的竞争逻辑已经发生改变：参数够用之后，谁能把模型嵌入用户的日常决策链（购物、本地服务、复杂查询），谁就拿到更高的使用频次和粘性。

Gemini原生内置计算机操作，三巨头在"让AI操控屏幕"上会师

6月24日，Google将"计算机操作"功能从专用模型Gemini 2.5 Computer Use剥离，原生整合至主力Flash模型Gemini 3.5 Flash，覆盖浏览器、移动端和桌面三大平台。

将屏幕操控从实验性专用模型升级为主力模型的标准内置工具，标志着Google在AI智能体方向上迈出关键一步。该功能聚焦软件持续测试、跨应用知识工作等长周期企业自动化场景，"观察屏幕→推理操作→执行反馈"的循环机制一旦稳定跑通，大量RPA和人工操作类工作将直面替代压力。

公司

产品

路线

Google

Gemini 3.5 Flash 内置 Computer Use

主力模型原生集成

Anthropic

Computer Use

专用能力输出

OpenAI

Operator

C端产品化

三足鼎立格局

三巨头的殊途同归说明了一个共识：让AI直接操作计算机，不再是可选题，而是智能体的标配。

出口管制反噬NSA：以安全为名的管制如何削弱安全

据《纽约时报》报道，美国国家安全局已无法使用Anthropic的Mythos模型。NSA局长在国会听证会上透露，Mythos"在几小时内就攻破了几乎所有机密系统"，这本是该机构最强大的漏洞发现工具。但因特朗普政府6月以国家安全为由对Anthropic实施出口管制，迫使该公司撤回先进模型，NSA反而失去了关键网络安全能力。

这个案例暴露了一个尖锐矛盾――以保护国家安全为名的出口管制，正在削弱国家安全机构的实际防御能力。更深层的问题在于Anthropic与五角大楼在AI军事应用边界上的长期分歧，Anthropic此前已被军方列为"供应链风险"。

目前白宫和情报官员正推动双方达成机密合同，尚未敲定。这一案例为全球AI治理提供了警示：如何在技术创新、商业利益与国家安全之间构建协调机制，而不是让管制政策在各部门之间互相消耗。

火山引擎Agent Ready：180万亿Token日调用量背后的规模化野心

6月24日，火山引擎在FORCE原动力大会上发布Agent Ready基础设施，构建AI云与Agent三层架构。

模块

功能

AgentKit（Identity/Runtime/Sandbox/Evaluation）

Agent可靠、可控、可衡量

Runtime

长程任务支持，分钟级12万沙箱并发

ArkClaw企业版

Agent广场、技能中心、企业知识库，钉钉统一管控

火山引擎Agent Ready核心模块

过去一年，火山引擎豆包大模型日均Token调用量突破180万亿，同比增超10倍。Agent Ready的推出说明火山引擎正从模型能力层向应用落地层延伸，试图在Agent规模化部署中占据企业级入口。

与海外竞品相比，火山引擎的差异化在于深度集成飞书等中国办公生态――这在企业Agent的"最后一公里"落地中可能构成实质壁垒。当海外厂商还在解决"Agent能做什么"，国内厂商已经在争夺"Agent在哪用"和"谁管权限"。

Qwen-AgentWorld：用"世界模型"思路重构Agent训练范式

6月24日，阿里通义千问团队发布Qwen-AgentWorld，业界首个原生语言世界模型。该模型覆盖MCP、Search、Terminal、SWE、Web、OS、Android七大交互环境，基于超1000万条真实交互轨迹，经CPT→SFT→RL三阶段训练。

模型

AgentWorldBench得分

Qwen-AgentWorld-397B-A17B

58.71

GPT-5.4

58.25

Claude Opus 4.8

―（低于前两者）

同类模型对比

Qwen-AgentWorld的核心突破在于――把环境建模作为预训练阶段的原生目标，而非事后适配通用大模型。它可以同时扮演两种角色：1、解耦环境模拟器（为智能体RL训练提供可控环境）；2、统一智能体基础模型（实现跨领域任务迁移）

这一思路为智能体训练开辟了新路径。过去依赖真实环境反复试错的强化学习，成本高、不可控、难复现。如果把"世界模拟+迁移学习"的路线跑通，Agent训练的效率和可扩展性将发生质变。模型和Benchmark已在Hugging Face和ModelScope开源，这对国内Agent研究的复现和推进是实在的利好。

结语

大模型竞争的主轴早已清晰偏移――不再是谁的模型更大，而是谁的模型能做事。

GPT-5.5 Instant的三轮迭代没碰一次参数，全部在打磨"懂人"的能力；Gemini把计算机操作从实验功能变成标配，是在定义"能做事"的基础动作集；火山引擎和Qwen-AgentWorld则从不同方向回答同一个问题：Agent规模化落地需要什么样的基础设施和训练范式。

NSA失去Mythos的故事则是一面镜子――当技术能力领先到可以动摇安全格局，治理机制跟不上时，最先受伤的往往不是竞争对手，而是自己。

接下来的竞争分层：底层是模型能力的持续演进，中层是Agent操控环境的标准化，上层是生态入口和商业闭环。能同时在三层布局的公司，才可能拿到下一阶段的主动权。

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。用户必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！