小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

时间:2026-02-12 15:47:32 来源:作者:xjh点击:25

导读:本文是由xjh网友投稿,经过编辑发布关于"小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点"的内容介绍。


 2月12日上午,小米机器人团队在GitHub和Hugging Face上甩下一组链接,像投进平静湖面的石子——开源代码、模型权重、技术文档全量开放。几乎同一时刻,一段真机测试视频开始在技术社区流传:双臂机器人面对桌上散落的彩色积木,抬手、抓取、分离,动作利落得像熟练的装配工;紧接着,它又捏起一条软塌塌的毛巾,对折、再对折,全程没有卡顿,也没有把织物揉成一团。

 这是XiaomiRobotics0的第一次公开亮相。一个拥有47亿参数的视觉语言动作(VLA)模型,以“大脑+小脑”的奇特构造,试图回答具身智能领域最棘手的那个问题:如何让机器人既听得懂人话,又干得利索活。

 大脑与小脑:两种Transformer的协同舞步

 传统VLA模型常陷入两难:要么理解能力出色,但执行起来像患了“反应迟钝症”,动作断断续续;要么动作流畅,却对模糊指令一知半解。XiaomiRobotics0的解法是——拆开。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 团队采用了名为MixtureofTransformers(MoT)的混合架构。一端是视觉语言大模型(VLM),充当“大脑”:它处理类似“请把毛巾叠好”这样语义含混的自然语言指令,从高清摄像头传回的图像里定位毛巾在哪、纹理走向如何、该从哪边开始折。另一端是多层Diffusion Transformer(DiT),充当“动作小脑”:它不输出零散的单步动作,而是打包生成一个连续的“动作块”(Action Chunk),通过流匹配技术让每一步位移都平滑衔接。

 这种分工的效果,在真机测试中一目了然。叠毛巾这类任务对柔性物体的抓取力控制要求极高,传统模型常因推理延迟导致机械臂在空中“思考”半秒,毛巾早已滑落。而搭载XiaomiRobotics0的机器人从头到尾没有明显停顿,手眼协调得像老裁缝。

 两阶段进化:学本领,不忘本

 许多VLA模型在“学动作”的过程中会逐渐丢失原有的视觉理解能力——就像专攻体育特长的学生,文化课成绩一落千丈。小米团队在设计训练方案时,专门为这个痛点打了补丁。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 训练被切成两段。第一阶段叫“跨模态预训练”。团队引入了一个叫Action Proposal的机制:让VLM在理解图像内容的同时,被迫同步预测多种可能的动作分布。这不是让模型立刻做出精确动作,而是强迫它把“看”和“做”的特征空间对齐。好比教人做饭时,不急着下锅,而是先让他看着菜谱比划步骤。

 第二阶段则把VLM“冻结”起来,专项训练DiT如何从噪声中恢复出精准的动作序列。这一阶段去掉了VLM输出的离散Token,完全依赖KV特征进行条件生成。结果是,机器人既没丢掉原先的物体检测、视觉问答能力,又在叠毛巾、拆积木这类精细操作上练出了肌肉记忆。

 异步与掩码:对抗“动作断层”的两把手术刀

 VLA模型上真机,最大的拦路虎是延迟。模型在云端或本地显卡上推理需要时间,而机器人执行器每秒要输出几十帧控制指令——一旦推理跟不上执行,机械臂就会在空中“断片”,像电影卡帧。

 XiaomiRobotics0没有试图把推理速度压榨到极限,而是换了个思路:让推理和运行解除同步约束。模型慢慢算它的,机器人按照最近一包“动作块”继续执行。只要动作块的长度足够覆盖推理间隔,动作就能保持连贯。这套“异步推理”模式,从机制上切断了延迟对流畅性的致命影响。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 在此基础上,团队又加了两道保险。Clean Action Prefix把前一时刻预测的动作作为当前输入,确保轨迹在时间维度上不抖动;Λshape Attention Mask则通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于过去几秒的历史惯性。测试中,当环境突发变化——比如毛巾被碰歪、积木被抽走——搭载该模型的机器人反应明显比对照组更敏捷,像是“醒着”的。

 消费级显卡跑出的SOTA:开源的低门槛野心

 在LIBERO、CALVIN、SimplerEnv三大主流仿真测试集中,XiaomiRobotics0在所有Benchmark上横扫了30个对比模型,拿下当前最优成绩。但比榜单数字更让开发者兴奋的,是它的硬件门槛——普通消费级显卡就能实现实时推理。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 此前,顶尖VLA模型往往需要A100乃至H100级别的专业算力卡,把绝大多数中小团队挡在门外。小米此次将47亿参数的模型权重、代码全量托管在GitHub和Hugging Face上,意味着任何一个拥有消费级显卡的研究者,都能下载、微调、部署自己的具身智能机器人。

 有开发者在技术社区留言:“以前VLA是大厂的玩具,现在它成了开源世界的积木。”这或许正是XiaomiRobotics0最鲜明的特点——它不是实验室里仅供瞻仰的奖杯,而是一套已经跑通、愿意分享、且大多数人跑得动的工具箱。从积木拆解到柔性织物折叠,从消费级硬件到全量开源,小米机器人团队迈出的这一步,让“物理智能”从一个炫酷的概念,变成更多人手里可以捏塑的黏土。


本文网址:http://health.muyjkw.com/kuaixun/12220.html

声明:本站原创/投稿文章所有权归楚天财经网所有,转载务必注明来源;文章仅代表原作者观点,不代表楚天财经网立场;如有侵权、违规,可直接反馈本站,我们将会作删除处理。

小编推荐

预防疾病-健康饮食-减肥健身-沐阳健康网