【1】生于混沌:工业机器人的无身无脑时代
我们的故事要从1959年的一间新泽西车间讲起,那一年,乔治・德沃尔(George Devol)和约瑟夫・恩格尔伯格(Joseph Engelberger)把一台两吨重的液压臂搬进通用汽车(GM)的压铸车间,取名尤尼梅特(Unimate)。Unimate没有眼睛,没有脑子,它能做的只是按照预先编好的坐标序列,把滚烫的压铸件从模具里抓出来,丢进冷却池。这个动作它可以重复几十万次不出错,但也永远不会因为环境变化而做第二个动作。Unimate的问世奠定了工业机器人前半个世纪的工作逻辑:预设路径→结构化环境→高精度重复。这套逻辑在汽车焊装线上被推到极致,20世纪70年代末,FANUC、ABB、KUKA(库卡)、安川电机相继切入,形成日欧主导的四大家族格局。日本在1980年代工业机器人一度达到年产量突破2.4万台,占全球高级机器人总量的56%,背后即是通产省的政策推动和丰田生产方式(TPS)对自动化的内在需求。
但其时的"机器人"始终缺少智能,整个上世纪八十年代工业机器人做的只是把人手的轨迹数字化,它要求整条产线围绕它来设计,背后的技术要求高度严苛,如零件必须以精确到毫米的位姿送到它夹爪下方、光照必须恒定、工件尺寸公差必须在示教的范围内……一旦产线改型,就要请示教工程师花几天甚至几周重新编程。这种“无身无脑”的模式在大规模、标准化的生产线中极为高效,但也埋下了两大积薪厝火,一是柔性不足,传统工业机器人在手机、消费电子装配线的渗透率很长时间都上不去,就是因为产线换一种产品就要换一套夹具、一套程序,迁移门槛太高,而3C电子产品的生产周期往往只有6-12个月;二是人机隔离,初代工业机器人只能重复同一行动轨迹,人机协作几无可能。
【2】交互认知:Sim-to-Real的初探索
1986年麻省理工AI实验室的一位澳大利亚学者罗德尼・布鲁克斯(Rodney Brooks)发表了那篇后来被反复引用的论文“A Robust Layered Control System for a Mobile Robot”正式提出“包容式架构”(Subsumption Architecture),Rodney Brooks主张AI不应该再去做符号推理,真正的智能应该"通过身体与世界的互动涌现出来(situatedness and embodiment)",这是"Embodiment"(具身)这个词在AI语境下的起点。简而言之,Rodney Brooks认为机器人不需要在脑子里整套构建一个“世界模型”,也不需要进行复杂的符号推理,依凭和现实世界的交互,智能也能发生。这一主张的提出背后可追溯到古老的哲学渊源,比如梅洛-庞蒂的身体现象学(身非机器,而是看世界的原点)、海德格尔的上手性(Zuhandenheit,你用锤子时不会想锤子本身,而是透过锤子直接感知钉子),以及认知科学里 Lakoff、Varela 等人推动的具身认知(Embodied Cognition,即使是“爱”与“时光”这样最抽象的思想认识也来源于身体的经验)。
文科并非一无是处,真正的突破常常发生在学科交界处,从具身智能的诞生来看,哲学恰是这条看不见又不可或缺的根系,只是Rodney Brooks把这套思想变成了产品。他先创办iRobot,推出Roomba 扫地机器人(2002);后又在2008年成立Rethink Robotics,做出Baxter(2012)和Sawyer(2015)两款协作机器人,带视觉人脸识别功能,可以徒手示教,被视为协作机器人(cobot)品类的先驱。但这条创业之路Rodney Brooks走得并不顺畅,Rethink Robotics于2018年破产,主要原因之一是当时Baxter"看起来聪明"但并不等于"能出活",其精度和速度还打不过四大家族的传统机器人。这次失败为工业机器人留下了一个重要的经验教训:工业客户要的是节拍(cycle time)和良率(yield rate),而不是聪明的DEMO。
与此同时,学术界的具身智能也在另一条路上跋涉。2010至2015年间强化学习和仿真成为关键词,MuJoCo(2012年发布、2021年被DeepMind收购并开源)、Boston Dynamics的Atlas(2013年DARPA机器人挑战赛首秀)、OpenAI Gym(2016)相继问世,这些技术挑战都在试图回答一个问题:机器如何从与物理世界的交互中,自己学会控制自己?答案慢慢清晰,但还远远不够落到工业场景,因为强化学习的样本效率太低,一个抓取任务在真机上跑要几万次,而代价是磨损真实的硬件。
【3】具身开智:大模型把"脑子"还给了机器人
2022年11月ChatGPT发布,话题热度在微信朋友圈,但带给工业机器人从业者的震撼却在实验室,机器人领域的很多PI(Principal Investigator)开始意识到,语言模型里封装了大量关于世界的常识和任务分解能力,这些东西正是过去几十年机器人苦学却没有解决的高层规划。这波反应最快的是Google,其实早在2022年4月Google Brain已和Everyday Robots合作发布了耦合PaLM语言模型与机器人低层技能策略的SayCan,实现了让机器人"听懂"指令"我饿了,帮我拿点吃的",但彼时大家还不确定SayCan是真智能还是复杂的If-Else,而年尾ChatGPT发布之后,所有疑虑不攻自破。转年多个主流模型团队密集发布范式级论文,它们构成了今天几乎所有工业具身智能产品的技术底座:
2023年3月,Google Robotics RT-1把13万条机器人轨迹喂给一个35M的Transformer,证明机器人可以从数据里学技能,不必逐条编程
2023年5月,斯坦福李飞飞团队的VoxPoser用LLM +视觉基础模型直接生成3D操作affordance地图,声称不再需要预训练机器人技能
2023年7月,DeepMind RT-2首次把互联网视觉-语言数据和机器人数据合一训练,机器人可以泛化到没见过的物体(当发出"把灭绝的动物扔进桶里"的指令,机器人能挑出恐龙玩具)
2023年12月,DeepMind与多所高校合作的Open X-Embodiment数据集发布,举21家机构之力拼了超过100万条真机轨迹、22种机器人形态数据集,相当于具身智能版的ImageNet
【4】走向产线:工业场景拥抱更聪明的具身智能
在落地真机方面,2022年9月特斯拉Optimus在特斯拉AI Day亮相,它在台上走得摇晃、动作笨拙,但马斯克说了一句让整个行业失眠的话:"这将是一个比汽车业务更大的业务"。这句话的意义在于,人形机器人从一个学术玩具,变成了资本市场能看懂的商业叙事,自这时起,硅谷和中国的具身智能创业潮同时爆发,其后具身智能工业应用的三股力量逐步到位。
第一股力量是基础模型具备了真正的泛化操作能力。2024年10月旧金山创业公司Physical Intelligence(PI)发布π0模型,第一次展示了一个预训练模型能在多种机器人形态、多种任务上直接做长程、多步骤的精细操作(如叠衣服、装盒、整理桌面)。紧接着2025年上半年的π0.5又引入了"Open-World Generalization",使机器人可在训练中从未见过的家庭场景里直接做家务。家务场景机器人的能力革新对工业场景同样意义重大,因为工厂本质上是一个比家庭更结构化的环境,如果模型能在家庭泛化,理论上在工厂应该更容易。
第二股力量是仿人路线硬件价格下调。在2023年,如Boston Dynamics Atlas这样的液压人形单台成本还普遍在上百万美元,且多数只能做科研;到了2024年,宇树科技H1首发价9万美元、G1降到16000美元,优必选Walker S面向工业客户的落地价格约在50-80万人民币,智元远征A2首批开售价74万人民币起……人形机器人成本进入下探期,据初步测算到2024年末工业场景人形机器人的单台价格已经低于一个资深产线工人三年薪酬的大致区间,这意味着人形机器人在工业场景部署的投资回报开始变得可以预测。
第三股力量发生在需求侧,工业客户的实际痛点随技术能力的实现而集中爆发。2024年全球制造业面临的是一个逆周期供给过剩与高性价比人力需求急迫的交叠组合,受需求端周期性萎缩影响,截至2024年第四季度美国CAPU(产能利用率)预计为76.9%,比1967年后的历史平均水平低3.2个百分点,更是比以往经济衰退的临界水平(82.9%)低了整整6个百分点;中国2024年规模以上工业产能利用率为75%,第一季度一度降至73.6%,创下2020年以来新低,同样面临阶段性调整;同时,中国劳动力成本十年上涨2.5倍、日德人口老龄化导致工厂关键工位招人困难、美国因制造业回流再工业化出现大量新产线招工需求、3C电子、新能源等行业的产品迭代周期进一步加快,种种因素带来的需求迭代,促使工业制造客户第一次愿意真正为更柔性生产、更灵活用工、更高性价比的机器智能支付溢价。
在具体落地打法上,Figure与特斯拉的车厂路线高度场景卡位。Figure与特斯拉不约而同选定车厂为最先切入场景,因为车厂有结构化最强的金属件装配环境、工位节拍固定、对机器人心理接受度最高、单工厂采购意愿通常能到上百台。Figure于2024年3月在BMW试点,同年迭代Figure 02,这是按工厂要求倒推设计的真实落地产品,2025年2月Figure宣布与自研的Helix通用人形大模型打通,宣告产品从技术上进入多机协同阶段。特斯拉Optimus走的是更封闭的路线,其在Dojo训练集群+ Autopilot车队+自家工厂里真实装配数据的闭环策略中迭代,Optimus V3版本开始在特斯拉弗里蒙特和上海工厂"部分自动化"地搬运电池托盘,但截至2025年良率仍在爬坡。
中国市场仿人路线产品加速落地,场景多点开花。智元机器人(Agibot)2024年在上海建成“全球首个人形机器人量产工厂”,年产能1000台,远征A2系列在2025年第一季度商业化,其中A2-W面向工业搬运、A2-Max面向重载。银河通用押注合成数据+仿真训练,其Galbot G1用的是轮式底盘+双臂+灵巧手的混合形态,并与美团、招商局合作在药房和仓储做结构化场景物品分拣试点应用。优必选在2022年后全力转型工业,Walker S系列于2024年进入比亚迪、吉利、富士康工厂做实训,由车企提供场地和产线数据、优必选派工程师驻场调试、联合研发。宇树科技主打价格,工业应用目前集中在巡检(电网、变电站、石化厂)、科研等场景,并凭借2025年春晚节目一夜出圈,但笔者认为宇树真正的企业价值或在于成为具身智能领域的“大疆”,即长期布局硬件平台底座供应商的占位。
“四大家族”为代表的传统工业巨头在积极做底层融合创新。尽管硅谷与中国的具身智能在工业场景下浩浩荡荡,但不可忽视的是,ABB、库卡、FANUC、安川等老牌豪门同时在做一件静默但关键的工作:把AI模型塞进存量产线,帮助工厂更便捷可达地做智能化转型。ABB在2024年发布了OmniCore控制器,把视觉语言模型集成进机器人编程,工程师可以用自然语言告诉机械臂"把蓝色盒子里的东西挑出来放到传送带上"而不再依赖写代码。KUKA与微软合作Azure Industrial AI,FANUC则借助其全球75万台装机存量,整集运行数据反哺训练模型。2024年3月,NVIDIA在GTC上发布了人形机器人基础模型项目GR00T(Generalist Robot 00 Technology),NVIDIA野心勃勃进入工业具身市场,自己不造机器人,但要做所有机器人的"安卓",GR00T提供从仿真(Isaac Sim、Omniverse)、训练(Osmo)、到部署(Jetson Thor)的全栈能力,截至2025年底,GR00T的合作伙伴名单中包含了Figure、1X、Agility、宇树、波士顿动力、Fourier、Apptronik等几乎所有主流人形厂商。
基模和云厂商也在大脑侧发力,以期真正提升Rodney Brooks提及的“身体与世界的互动”。Gemini Robotics首次展示了机器人可以做"折纸""掷硬币"这种精细动作,同时具备语言理解;前文提到的Physical Intelligence π0和π0.5走的是VLA模型+跨形体训练路线;卡耐基梅隆系创业公司Skild AI致力于创建一个跨越跨四足机器人、人形机器人、机械臂、移动操作机器人等多种形态工作的通用大脑;亚马逊投资仓储机器人大模型厂商Covariant AI;此外,字节跳动 Seed-Robotics、腾讯 Robotics X、京东 JoyLab也密集建队,把具身智能当作AGI的最后一块拼图。这一层的博弈逻辑类似于移动互联网时代的操作系统之争,谁的大脑被最多机器人用,谁就赢得生态,但我们也看到,硬件厂商最终都想/宣称自研大脑,基础模型派的商业化天花板在哪,还有待市场检验。
【5】分层收敛:工业级具身智能何时能摆脱遥操作以实现大规模替代人工
当前行业集体进入回归理性"的阶段,此前许多高调的具身智能Demo被证明是遥操作(teleoperation),2025年6月MIT Technology Review的一篇长文统计了2024年全网人形机器人工业应用视频,其结论是约70%包含遥操作元素,这轮具身智能祛魅让市场意识到:真正的自主具身智能短期还不会大规模替代人工。但业内认为这并不意味着泡沫破裂,而更有可能驱动具身智能市场进入场景分层阶段。其中结构化的工业一线场景普遍已经跑通,这类场景的特征是环境固定、物体种类有限、容错窗口宽,轮式+双臂+视觉 VLA 模型的组合良率已经很高,在料箱搬运、上下料、托盘堆码、仓储分拣、质检巡检有望率先形成市场起量。而精密装配、柔性抓取、换线作业等涉及物体多样性较高的场景,当前主要攻克的是如何更好地在真人监督下干活,实现高效地人机协同。最后无预定义操作、异常处置、维修维护等长尾场景对常识推理和临场决策的能力和反应时延仍较高,目前基础模型能力仍然不够,呼唤更前沿的智能决策方案攻坚。笔者猜测,这似乎也是2026年第一季度Gartner具身智能Hype Cycle把"通用人形工业机器人"放在幻灭低谷到复苏上升斜坡的拐点的背后考量。


具身智能本质上是一场把大脑装进机器载体的“类女娲造人”。Unimate用六十年解决了"身"的精度问题,大模型用三年把"脑"的可能性推到临界点,新的经济周期驱动工业级客户开放了需求缺口,而其后交给工业场景具身智能厂商的命题是,如何把这两件事焊在一起,让工业具身智能产品更好地跑出良率、跑出新场景、跑出落地的产线规模、适应多变性、证明投资回报能力。Rethink Robotics倒在了变革前夜,新的厂商前赴后继,但我们认为大方向仍旧乐观,未来十年,全球制造业的人口结构、产品迭代速度、关税与回流趋势,都在为具身智能提供结构性需求,未来也许当我们回看2026年,会发现它和2011年移动互联网爆发前夜有某种相似的意味:硬件、软件、用户需求、资本四件事似乎在同一时刻凑齐了。
对此,我们充满期待。
【主要参考文献】
– [Citi Research – The Rise of Physical AI](https://www.citigroup.com/global/insights/embodied-intelligence-the-rise-of-physical-ai)
– [Carnegie Endowment – Embodied AI: China's Big Bet](https://carnegieendowment.org/russia-eurasia/research/2025/11/embodied-ai-china-smart-robots)
– [MERICS – Embodied AI: China's ambitious path](https://merics.org/en/report/embodied-ai-chinas-ambitious-path-transform-its-robotics-industry)
– [Nature – How embodied intelligence makes robots seem more human](https://www.nature.com/articles/d42473-026-00119-z)
– [Springer – The Industrial Revolution: Harnessing Embodied AI Systems](https://link.springer.com/chapter/10.1007/978-3-031-68256-8_8)
– [Springer – Industrial Use Cases of Embodied AI](https://link.springer.com/chapter/10.1007/978-3-031-68256-8_16)
– [Springer – Embodied intelligence in manufacturing: LLMs for autonomous industrial robotics](https://link.springer.com/10.1007/s10845-023-02294-y)
– [Springer – Embodied intelligence for robot manipulation](https://link.springer.com/article/10.1007/s44336-025-00020-1)
– [arXiv 2505.09305 – Embodied intelligent industrial robotics](https://www.arxiv.org/abs/2505.09305)
– [CORDIS EU – Embodied AI/Robotics Applications for a Safe, Human-oriented Industry](https://cordis.europa.eu/project/id/101069994/reporting)
– Figure AI / BMW 合作:Figure 官方新闻稿 2024-01-18,BMW 官方 2024-08
– 特斯拉 Optimus:Tesla AI Day 2022-09-30
– Physical Intelligence π0/π0.5:physicalintelligence.company 官方博客 2024-10、2025-04
– NVIDIA GR00T:GTC 2024 Keynote、GTC 2025 Keynote
– 智元、银河通用、宇树、优必选:各公司官方公告、港股/A股招股书(优必选2023年港股)、媒体报道综合
