HAMSTER:分层视觉-语言-动作（VLA）模型比直接微调-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueqq_44683998

HAMSTER:分层视觉-语言-动作（VLA）模型比直接微调视觉-语言模型（VLM）以预测动作的标准单体VLA模型，通过分层设计，高层VLM能够在非领域内微调数据与真实机器人测试场景之间跨越显著的领域差距，包括体现在机器人本体、动力学、视觉外观和任务语义等方面的差异。在真实机器人实验中，该文观察到在七个不同的泛化维度上，相较于OpenVLA，成功率平均提高了20%，相当于50%的相对增益。 #智能机器人 #具身智能#Franka机器人#pnp机器人

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条动态