ToddlerBot：面向移动操作的开源ML兼容人形机器人平台

分享自：
ToddlerBot：面向移动操作的开源ML兼容人形机器人平台

计算机科学
人工智能
期刊:9th conference on robot learning (corl 2025), seoul, korea.
【点击此处】阅读全文、收藏及针对性提问
关于ToddlerBot：一种面向机器学习兼容的全身运动操作开源人形机器人平台的学术研究报告
一、 研究团队与发表信息
本研究由斯坦福大学（Stanford University）的Haochen Shi、Weizhuo Wang、Shuran Song和C. Karen Liu共同完成。其中，前两位作者为并列第一作者，后两位作者为并列指导作者。该研究成果以论文形式发表，并已被第九届机器人学习会议（9th Conference on Robot Learning, CoRL 2025）接收。会议将于2025年在韩国首尔举行。论文的预印本及项目的完整开源资料（包括硬件设计、软件代码、教程等）已通过项目网站（https://toddlerbot.github.io）公开。
二、 学术背景与研究目标
本研究属于机器人学领域，具体聚焦于人形机器人（Humanoid Robot）的平台设计与系统集成。传统的机器人设计范式往往优先考虑执行器强度、传感器精度和机械精度，以满足工业部署的可靠性要求。然而，对于以数据驱动的现代机器学习（ML）研究范式而言，这种设计思路存在局限。当前的机器人学习研究严重依赖于海量的仿真与真实世界数据，但许多现有机器人平台并非为高效、高质量的数据收集而设计，它们可能成本高昂、难以修复、系统封闭（存在“黑箱”），且仿真与现实的鸿沟（sim-to-real gap）巨大，这极大地阻碍了基于学习的策略（policy）的开发与验证。
因此，本研究旨在回应这一挑战，其核心目标是设计并实现一个专为机器人学习研究量身定制的、低成本、开源、易于复制的人形机器人平台。该平台被命名为“ToddlerBot”。研究的具体目标包括：1) 机器学习兼容性（ML-compatibility）：平台需能无缝支持高质量仿真数据生成和真实世界数据采集，并实现策略的零样本仿真到现实迁移（zero-shot sim-to-real transfer）。2) 能力（Capability）：平台需具备足够多的自由度（DoFs）和运动性能，以支持复杂的全身运动操作（loco-manipulation）任务研究。3) 可复现性（Reproducibility）：平台的设计和构建成本需足够低，且完全开源，使得单个研究人员仅凭基础技术知识即可在家中进行复制和维修。
三、 详细研究流程与方法
本研究是一项系统性工作，涵盖了机器人平台的机械设计、电子系统、仿真建模、控制系统、学习算法验证以及全面的性能评估。其详细流程如下：
1. 系统设计与硬件实现 研究首先明确了三大设计原则：可复现性为硬性约束，能力和ML兼容性为核心设计目标。 * 机械设计：ToddlerBot采用仿生设计，拥有30个主动自由度（每条手臂7个，每条腿6个，颈部2个，腰部2个），关节运动范围接近甚至部分超过人类，为实现类人运动提供了基础。机身结构完全采用3D打印制造，以降低成本和制造门槛。为解决空间限制、轴对齐和惯性减小等问题，设计集成了三种传动机制：正齿轮（spur gears）、耦合锥齿轮（coupled bevel gears）和平行连杆（parallel linkages）。研究提供了两种末端执行器设计：用于抓取的平行夹爪和用于需要手掌姿态任务的柔性手掌，两者可在两分钟内快速切换。 * 执行器与传感器：为平衡性能与可获取性，所有关节均采用Robotis Dynamixel系列伺服电机。传感器套件包括两个鱼眼摄像头（扩展视野）、一个位于躯干的惯性测量单元（IMU，用于状态反馈）、扬声器和麦克风（支持人机/机机交互）。机载计算由NVIDIA Jetson Orin NX（16GB）提供，支持机器学习模型的实时推理。 * 可复现性保障：总物料成本控制在6000美元以下（90%用于电机和计算机）。研究发布了详细的3D打印文件、装配手册和视频教程。为验证可复现性，团队邀请了一位未参与项目的计算机专业学生，该学生仅凭开源资料在三天内独立完成了另一台ToddlerBot的组装（含3D打印时间）。此外，开源社区在一周内报告了至少五次成功的独立复制案例。
2. 高保真数字孪生与系统辨识 为实现高质量的仿真和零样本仿真到现实迁移，研究团队开发了一套完整的系统辨识（System Identification, SysID）流程来创建高保真数字孪生（digital twin）。 * 零点校准：由于Dynamixel电机缺乏绝对零点，研究设计了3D打印的校准工具，可在重新组装后一分钟内将机器人校准到定义的零点姿态（双臂平行于身体站立）。 * 电机系统辨识：团队设计并构建了一个电机测试台，用于自动测量Dynamixel电机系列的动态参数，包括静摩擦损失（frictionloss）、阻尼（damping）、转子惯量（armature）等。通过向电机发送扫频信号（chirp signal）并记录位置跟踪数据，利用优化方法拟合出一个包含9个参数的执行器模型。该模型考虑了扭矩-速度关系、不同的加速/制动扭矩限制以及齿轮箱效率等因素。关键发现是，同型号的Dynamixel电机具有几乎相同的动态参数，这使得为一个机器人实例建立的模型可以直接应用于其他实例，无需重新进行系统辨识。
3. 数据采集与控制框架 * 仿真数据生成：基于MuJoCo物理引擎和构建的高保真数字孪生模型，研究开发了与图形用户界面（GUI）集成的工具，可以实时调整和验证关键帧动画（keyframe animation）轨迹，从而高效生成开环运动（如俯卧撑、引体向上）。 * 真实世界数据采集：为实现全身运动操作数据的采集，研究开发了一套直观的遥操作（teleoperation）系统。该系统利用第二个ToddlerBot的上半身作为“引导臂”（leader arms），操作者通过移动引导臂来控制机器人“跟随臂”（follower arms）的运动。同时，使用手持游戏电脑（如Steam Deck或ROG Ally X）的摇杆和按钮来控制机器人的行走、转向、蹲下、颈部及腰部运动。夹爪的开合通过嵌入末端的力敏电阻（FSR）检测操作者的握力来控制。在数据采集过程中，机器人的下半身采用两层PD控制器来主动维持平衡。 * 策略学习： * 强化学习（RL）：用于训练行走策略。策略基于可观测状态（相位信号、速度命令、关节位置偏移、上一时刻动作、躯干姿态和角速度等）输出关节位置设定点。奖励函数由模仿奖励、正则化奖励和生存奖励三部分组成。训练使用近端策略优化（PPO）算法在并行仿真环境中进行。 * 模仿学习（Imitation Learning）：利用上述遥操作系统收集了60条双臂操作和全身操作任务的演示轨迹。动作是引导臂的电机位置，观测是跟随机器人的电机位置及其摄像头捕获的RGB图像。在此基础上，训练了一个基于扩散模型（Diffusion Policy）的视觉运动策略。
4. 实验验证 研究通过一系列实验全面评估了ToddlerBot的性能。 * 能力测试： * 臂展与负载：通过遥操作，ToddlerBot可以环抱尺寸达27×24×31 cm³的物体（约其躯干体积的14倍），并能举起高达1484克的重量（约其总重3484克的40%）。 * 耐力测试：在满电状态下执行原地踏步的RL行走策略，最长可持续19分钟不摔倒。研究指出，机器人可承受最多7次摔倒，且损坏后维修快速（仅需21分钟3D打印和14分钟组装更换）。 * 动态运动演示：通过关键帧动画编程，实现了俯卧撑和引体向上的开环运动，并成功进行了零样本仿真到现实迁移。 * ML兼容性验证： * 全向行走：训练了RL策略使机器人跟踪预设速度轮廓的方形轨迹。实验结果显示，尽管策略本身存在跟踪误差（尤其在原地旋转时），但仿真与现实之间的性能差距（sim-to-real gap）远小于跟踪误差，证明了成功的零样本迁移。位置跟踪误差的方差为0.018米，显示了良好的可重复性。 * 视觉操作：基于收集的60条演示数据训练的扩散策略，在将章鱼玩具从桌子或地面移动到小车的任务中，双臂操作成功率达到了90%（20次试验），全身操作（需结合蹲下）成功率为75%。策略在Jetson上的推理延迟约为100毫秒，可实现实时运行。 * 技能链式操作：演示了机器人结合操作与移动技能，例如先使用扩散策略抓住小车把手，然后切换至RL行走策略推着小车前进。 * 可复现性验证： * 硬件：如前所述，成功实现了独立复制。 * 策略：在一台ToddlerBot上使用数据训练的操纵策略，可以直接在另一台实例上运行，并达到相同的90%成功率。RL行走策略也能在两者间成功迁移。 * 长时程协作：两个ToddlerBot实例（名为Arya和Toddy）成功协作完成了一个玩具整理场景：一个机器人从桌上拾取玩具放入小车，然后推车；另一个机器人从地上拾取玩具，最后两者一同离开。
四、 主要研究结果与逻辑关系
本研究通过上述系统性的设计、实现与实验，取得了一系列明确且相互支撑的结果： 1. 成功构建了ToddlerBot平台：结果是一个高性价比（<6000美元）、完全开源、易于复制、具备30个自由度的人形机器人实体。这直接回应了“可复现性”这一硬约束，为社区提供了一个切实可用的研究工具。 2. 建立了高保真仿真模型：通过创新的“即插即用”零点校准和可迁移的电机系统辨识流程，成功创建了与实物高度匹配的数字孪生。这一结果是实现高质量仿真数据采集和后续“零样本仿真到现实迁移”的基础。实验中的俯卧撑、引体向上的成功迁移直接验证了该数字孪生的保真度。 3. 开发了高效的数据采集系统：基于第二个机器人上半身和游戏手柄的遥操作界面，能够快速（20分钟收集60条轨迹）采集全身运动操作的高质量演示数据。这为数据驱动的模仿学习提供了关键的数据来源，使得训练视觉运动策略成为可能。 4. 验证了平台的核心能力：臂展、负载、耐力测试以及俯卧撑、引体向上等动态运动的结果，证明了ToddlerBot尽管尺寸小巧，但具备执行复杂、需要协调性和力量的任务的物理能力。这满足了“能力”设计目标，使其能够用于全身运动操作研究。 5. 证明了ML兼容性： * 仿真到现实迁移：关键帧动画（俯卧撑、引体向上）和RL策略（行走）的零样本成功迁移，强有力地证明了系统辨识和仿真模型的有效性。 * 基于学习的策略部署：扩散策略在真实机器人上实现高成功率的视觉操作，展示了利用平台采集的数据进行策略学习并实际应用的完整闭环。 * 策略可迁移性：策略在不同机器人实例间的直接成功应用，进一步印证了硬件和系统模型的一致性，极大地提升了研究效率。 6. 展示了复杂任务潜力：技能链式操作和双机器人协作的长时程任务，展现了ToddlerBot作为研究平台在组合技能、多智能体交互等前沿问题上的应用潜力。
这些结果层层递进：硬件平台是基础，高保真仿真和高效数据采集是支撑ML研究的两个支柱，而最终的各种能力验证和复杂任务演示，则共同论证了ToddlerBot作为一个“ML兼容、能力强、可复现”的研究平台的整体价值。
五、 研究结论与价值
本研究成功设计、实现并验证了ToddlerBot——一个为机器人学习研究社区打造的开源人形机器人平台。其核心结论是：通过将可复现性作为硬约束，并围绕ML兼容性和能力进行精心设计，可以创造出一个成本可控、易于获取、且功能强大到足以支持先进全身运动操作研究的机器人系统。
该研究的价值体现在多个层面： * 科学价值：它提出并实践了一种面向机器学习研究的新型机器人设计哲学，强调数据采集能力、仿真真实性、策略可迁移性以及系统的完全透明。为基于学习的机器人控制，特别是人形机器人的全身运动操作研究，提供了一个理想且易于访问的试验床。 * 应用与社区价值：完全开源（硬件设计、软件、教程）和低成本极大地降低了人形机器人研究的入门门槛，使全球更多缺乏雄厚资金和专门设备的研究团队甚至个人能够参与其中，有望促进更开放、更快速的协作与创新。其小巧尺寸（0.56米，3.4公斤）也使得在普通实验室环境中的安全操作成为可能。 * 方法论贡献：研究中所开发的“即插即用”校准工具、可迁移的电机系统辨识流程、以及基于现有机器人的遥操作数据采集方案，均为机器人系统研究提供了实用的工具和方法参考。
六、 研究亮点
首创性平台：ToddlerBot是首个集30个自由度、超人类关节活动范围、全身运动操作能力、完全开源设计及低于6000美元成本于一体的微型人形机器人研究平台。
ML兼容性的系统化实现：并非单一技术，而是通过一整套紧密集成的方案（高保真数字孪生、高效遥操作数据采集）来系统性地解决机器学习研究的数据需求与仿真到现实迁移挑战。
可复现性作为核心成就：将“单个研究者可在家复制”设定为硬约束并成功实现，通过完全3D打印、使用商用部件、详细文档和社区验证，真正做到了研究成果的普惠性。
全面的性能验证：不仅进行了基本的机械性能测试，还通过开环运动、学习策略（RL行走、扩散策略操作）、技能链和双机协作等不同层次和复杂度的任务，全方位展示了平台的实用性和研究潜力。
巧妙的遥操作设计：利用第二个机器人的上半身作为引导装置进行双臂操作示教，提供了直观、高精度的数据采集方式，同时结合游戏手柄控制身体其他部分，实现了高效的全身运动数据采集。
七、 其他有价值内容
论文在附录中提供了大量深入的技术细节，包括：3D打印选择的力学论证、传动机构（正齿轮、耦合锥齿轮、平行连杆）的详细设计原理与优缺点分析、提出的用于量化人形机器人能力的“功率因子（power factor）”指标及其推导过程、电机选型的详细依据与扭矩估算、电源预算分析、系统辨识的具体参数表格、遥操作手柄的按键映射、强化学习和扩散策略训练的超参数及奖励函数细节等。这些内容为其他研究者理解、复制乃至改进ToddlerBot系统提供了至关重要的信息。同时，论文也坦诚地讨论了当前平台的局限性，如商用电机的速度/扭矩限制、当前执行器模型未考虑电机温升、3D打印部件的抗冲击性较弱等，并指出了未来的改进方向，如开发定制通信板以提高控制频率、改进结构设计以增强强度、集成立体视觉、更多IMU和触觉传感器等。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问