今日科技观察|GPT-5.5再升级;Gemini原生操控屏幕;NSA痛失Mythos;Agent基础设施争夺升温

释放双眼,带上耳机,听听看~!
GPT-5.5再升级;Gemini原生操控屏幕;NSA痛失Mythos;Agent基础设施争夺升温

【资讯速览】

OpenAI升级GPT-5.5 Instant,强化隐含意图理解与实用推荐,免费用户明日接入

Google将"计算机操作"原生集成至Gemini 3.5 Flash,屏幕操控从实验功能升格为主力模型标配

特朗普政府对Anthropic的出口管制反噬情报机构,NSA失去Mythos访问权

火山引擎发布Agent Ready基础设施,日均Token调用突破180万亿

阿里通义千问发布业界首个原生语言世界模型Qwen-AgentWorld,AgentBench超越GPT-5.4

GPT-5.5 Instant三轮迭代,头部AI从参数竞赛转向"更懂人"

6月25日,OpenAI宣布对GPT-5.5 Instant进行新一轮升级,重点落在三件事上:理解用户隐含意图、处理多条件复杂约束、提升购物与本地服务推荐的连贯性。付费用户当日即可体验,免费用户将于6月26日接入。

轮次

时间

升级方向

第一轮

5月5日首发

降低52.5%幻觉率

第二轮

中间版本

优化表达风格

第三轮

6月25日

强化意图理解与实用推荐

GPT-5.5 Instant三轮迭代回顾

GPT-5.5 Instant是OpenAI目前使用量最大的模型,它的迭代方向比旗舰模型的发布更能反映战略重心。三轮升级每一条在卷参数――全部指向"让模型更懂人、更好用"。这说明头部AI公司在消费级战场的竞争逻辑已经发生改变:参数够用之后,谁能把模型嵌入用户的日常决策链(购物、本地服务、复杂查询),谁就拿到更高的使用频次和粘性。

Gemini原生内置计算机操作,三巨头在"让AI操控屏幕"上会师

6月24日,Google将"计算机操作"功能从专用模型Gemini 2.5 Computer Use剥离,原生整合至主力Flash模型Gemini 3.5 Flash,覆盖浏览器、移动端和桌面三大平台。

将屏幕操控从实验性专用模型升级为主力模型的标准内置工具,标志着Google在AI智能体方向上迈出关键一步。该功能聚焦软件持续测试、跨应用知识工作等长周期企业自动化场景,"观察屏幕→推理操作→执行反馈"的循环机制一旦稳定跑通,大量RPA和人工操作类工作将直面替代压力。

公司

产品

路线

Google

Gemini 3.5 Flash 内置 Computer Use

主力模型原生集成

Anthropic

Computer Use

专用能力输出

OpenAI

Operator

C端产品化

三足鼎立格局

三巨头的殊途同归说明了一个共识:让AI直接操作计算机,不再是可选题,而是智能体的标配。

出口管制反噬NSA:以安全为名的管制如何削弱安全

据《纽约时报》报道,美国国家安全局已无法使用Anthropic的Mythos模型。NSA局长在国会听证会上透露,Mythos"在几小时内就攻破了几乎所有机密系统",这本是该机构最强大的漏洞发现工具。但因特朗普政府6月以国家安全为由对Anthropic实施出口管制,迫使该公司撤回先进模型,NSA反而失去了关键网络安全能力。

这个案例暴露了一个尖锐矛盾――以保护国家安全为名的出口管制,正在削弱国家安全机构的实际防御能力。更深层的问题在于Anthropic与五角大楼在AI军事应用边界上的长期分歧,Anthropic此前已被军方列为"供应链风险"。

目前白宫和情报官员正推动双方达成机密合同,尚未敲定。这一案例为全球AI治理提供了警示:如何在技术创新、商业利益与国家安全之间构建协调机制,而不是让管制政策在各部门之间互相消耗。

火山引擎Agent Ready:180万亿Token日调用量背后的规模化野心

6月24日,火山引擎在FORCE原动力大会上发布Agent Ready基础设施,构建AI云与Agent三层架构。

模块

功能

AgentKit(Identity/Runtime/Sandbox/Evaluation)

Agent可靠、可控、可衡量

Runtime

长程任务支持,分钟级12万沙箱并发

ArkClaw企业版

Agent广场、技能中心、企业知识库,钉钉统一管控

火山引擎Agent Ready核心模块

过去一年,火山引擎豆包大模型日均Token调用量突破180万亿,同比增超10倍。Agent Ready的推出说明火山引擎正从模型能力层向应用落地层延伸,试图在Agent规模化部署中占据企业级入口。

与海外竞品相比,火山引擎的差异化在于深度集成飞书等中国办公生态――这在企业Agent的"最后一公里"落地中可能构成实质壁垒。当海外厂商还在解决"Agent能做什么",国内厂商已经在争夺"Agent在哪用"和"谁管权限"。

Qwen-AgentWorld:用"世界模型"思路重构Agent训练范式

6月24日,阿里通义千问团队发布Qwen-AgentWorld,业界首个原生语言世界模型。该模型覆盖MCP、Search、Terminal、SWE、Web、OS、Android七大交互环境,基于超1000万条真实交互轨迹,经CPT→SFT→RL三阶段训练。

模型

AgentWorldBench得分

Qwen-AgentWorld-397B-A17B

58.71

GPT-5.4

58.25

Claude Opus 4.8

―(低于前两者)

同类模型对比

Qwen-AgentWorld的核心突破在于――把环境建模作为预训练阶段的原生目标,而非事后适配通用大模型。它可以同时扮演两种角色:1、解耦环境模拟器(为智能体RL训练提供可控环境);2、统一智能体基础模型(实现跨领域任务迁移)

这一思路为智能体训练开辟了新路径。过去依赖真实环境反复试错的强化学习,成本高、不可控、难复现。如果把"世界模拟+迁移学习"的路线跑通,Agent训练的效率和可扩展性将发生质变。模型和Benchmark已在Hugging Face和ModelScope开源,这对国内Agent研究的复现和推进是实在的利好。

结语

大模型竞争的主轴早已清晰偏移――不再是谁的模型更大,而是谁的模型能做事。

GPT-5.5 Instant的三轮迭代没碰一次参数,全部在打磨"懂人"的能力;Gemini把计算机操作从实验功能变成标配,是在定义"能做事"的基础动作集;火山引擎和Qwen-AgentWorld则从不同方向回答同一个问题:Agent规模化落地需要什么样的基础设施和训练范式。

NSA失去Mythos的故事则是一面镜子――当技术能力领先到可以动摇安全格局,治理机制跟不上时,最先受伤的往往不是竞争对手,而是自己。

接下来的竞争分层:底层是模型能力的持续演进,中层是Agent操控环境的标准化,上层是生态入口和商业闭环。能同时在三层布局的公司,才可能拿到下一阶段的主动权。

温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
热点资讯

北森官宣全面转型AI应用公司,发布一站式AI HR专家平台Mavens

2026-6-25 14:55:14

网赚项目

女性情感项目 小白制作简单一台手机可做 项目模式后续自然升大客单 日入6张

2025-8-21 6:04:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索