一村资本研究社｜硅躯慧心：人工智能的具身觉醒之路-中国荷都网

一村淞灵专注于早中期投资，致力于构建一个强大的AI生态朋友圈。AI与具身智能的结合一直是行业领域研究和探索的重要方向。本篇文章作为《航海日志》系列的延续，结合探讨了具身智能可能存在的表现形式，探索AI与具身智能在现实世界相互融合演进的可能性。

从图灵测试到深度学习，从专家系统到大语言模型，AI的每一次进化都在拓展着人类对智能的理解边界。AI与具身智能的结合，一直是行业领域研究探索的重要方向。

上篇文章《航海日志｜慧智硅基灵巧手》我们点明，“所有模型算法将下沉到具身智能这个“大杀器”中，具身智能能让软硬件、AI、外部环境（包括人文环境）‘同频共振’！ ”。今日，我们便与大家共同探索AI与具身智能的“双生之旅”。

在人工智能发展的漫长河流中，我们见证了从简单的计算到复杂的认知系统的演变。如今，一个新的篇章正在开启——具身智能（Embodied AI）的崛起。这不仅是技术的进步，更是人工智能向着真正”智能”迈进的重要一步。机器人，作为具身智能最重要、最复杂的载体，一直是我们深度探索的核心。让我们踏上这段探索之旅，一起揭开其中的神秘面纱。

01、从虚拟走向现实：具身智能的诞生

想象一下，如果给予ChatGPT一个机器人身体，让它不只能与我们对话，还能实际行动，会发生什么？这就是具身智能要探索的领域。具身智能不再满足于在虚拟世界中运算和思考，而是要通过物理实体与现实世界直接互动。就像婴儿需要通过触摸、抓握、行走来认识世界一样，AI也需要一个”身体”来真正理解和适应这个立体的世界。

具身智能的概念源于认知科学的一个基本观点：智能的产生离不开身体的参与。人类的智能发展就是一个很好的例证。我们的认知能力不是与生俱来的，而是在与环境的持续互动中逐步形成，同理，具身智能技术演进的一个重要逻辑就是基于大模型在现实环境下的高泛化性（需要应对从未见过的场景）以及思维链能力（需要拆解复杂任务以及根据环境变化调整动作）。如幼儿通过抓、摔、摸等各种方式探索物体，在这个过程中建立起对物理世界的基本认知，而具身智能作为“新物种”参与到我们客观物理世界，也需要经过物体感知（视觉感知、触觉感知、数据感知）、脑部认知（语义分析、运动控制、多模态基础模型）、行动范式（智能交互、任务规划、具身执行）的持续迭代升级。

感知之门：具身智能的眼与手

如果说传统AI系统是”浅尝即止”的数字隐者，那么具身智能则是要让AI真正”走出象牙塔”的物理探索者。这场突破始于感知系统的革新，它赋予了AI前所未有的感知维度。

视觉感知，具身智能的”火眼金睛”。它不仅配备了能捕捉细腻色彩的高清相机，还装备了能够洞察深度的3D传感器。激光雷达就像其”第三只眼”，能够在黑暗中绘制精确的环境地图。这些视觉系统相互配合，让AI能够比人类看得更远、更清、更全面。

视觉语言模型生成的结果到机器人动作的映射方式，主要取决于该预测结果的层级。之前模型中预测结果处于高级别设计层级：以Google PaLM-E和微软ChatGPT for Robotics为例，PaLM-E实现了对具身任务的决策方案预测，但不涉及机器人动作的实际控制，需要依赖低级别的现成策略或规划器来将决策方案“翻译 ”为机器人动作。微软默认提供控制机器人的低层级API，ChatGPT输出是更高层级的代码，需调用到机器人低层级的库或API，从而实现对机器人动作的映射和控制。RT-2和VoxPoser预测结果已经到了低级别动作层级，不需要再经过复杂的翻译即可将高层级设计映射到低层级动作。

视觉感知的三个关键领域包括：视觉SLAM、3D场景理解、主动探索：

VSLAM & SLAM技术已在智能汽车、消费级机器人（配送机器人、扫地机器人等）等领域灵活运用，是一项发展较为成熟的技术。

3D场景理解：视觉领域的发展路径，不仅是在点云算法的结构布置及技术成熟，更是在生成的3D场景上的深度理解，并基于视觉信息预测和执行复杂任务。

因此，（1）要求模型具备快速将2D平面图转化为3D结构的生成能力。（2）要求模型需要具备理解物体的基本属性及事态发展的时序变化（x、y、z、t四维空间）。

除了视觉感知之外，我们关注触觉感知系统。通过遍布”身体”各处的压力传感器和触觉传感器，具身智能系统能够感受到与物体接触时的力度、纹理和温度。这种触觉反馈对于精确操作至关重要，就像人类需要通过手指的触觉来判断抓握的力度一样。

在上篇文章《慧智硅基灵巧手》中我们也提到，我们关注GELSIGHT这种视触觉传感器的不断演进发展，“视觉”+“触觉”的构造原理使它能够与深度学习算法融合，相比于其他触觉感知方式，其能够完成更为精细化的操作，我们认为它将会是未来机器人灵巧手上的“珍珠”。

02、智慧之源：具身智能的脑部模型

感知系统收集的信息需要经过脑部模型的处理才能转化为智能行为。脑部模型就像一个精密的指挥中心，需要同时处理多个层面的问题。LLM、VLM（视觉语言模型）等基础模型的最新进展，特别是ChatGPT、PaLM等模型在具身智能中的应用，有效增强了其感知和决策能力，推动大模型成为具身智能实现“感知-推理-预测-行动”能力的主流架构，业界已经有多款模型发布，并在各类复杂任务中取得了显著的进展，且这些模型仍在快速迭代与优化中，例如RT-1、RT-2、RT-H、PaLM-E、VoxPoser等，点亮了机器人的慧能。

RT-2/VoxPoser的一大突破是使机器人可以理解自然语言指令，无需复杂的编程语言便可完成人机交互。RT-2模型建立在视觉-语言模型（VLM）的基础上，赋予机器人语义理解和基本推理能力，使其可以听懂并自主推理出已灭绝动物（恐龙）和哪种饮料最适合疲惫的人(能量饮料)；李飞飞团队VoxPoser模型只需接收到“打开上面的抽屉，小心花瓶！”类似的指令即可执行任务；在前华为天才少年彭志辉创业公司智元机器人所发布的视频中，机器人也可根据简单的文字或语音指令对桌面上不同颜色的方块进行选取、调位和叠放等操作。

无需训练即可完成复杂指令且产生涌现能力，未知场景下RT-2模型泛化能力翻倍。新模型的另一大突破是无需预定义的运动原语或额外的数据和训练，模型泛化能力增强，加速机器人通用化。过去算法下实现机器人扔垃圾的动作需训练机器人区分、捡起、扔掉垃圾各个步骤，而RT-2可以将网络相关知识传给机器人，使其无需明确的训练即可学会扔垃圾。面对之前从未见过的任务情形，RT-2成功率达到62%，泛化性能较RT-1提高一倍。

而VoxPoser用大模型指导机器人如何与环境进行交互，达到在无需额外数据和训练的情况下完成各种任务，并且涌现出了4种行为能力，可以自主分步完成任务，掌握评估方法，根据最新要求做出判断进而调整输出动作。

脑部模型有三大重要任务

1. 环境理解：模型需要将各种感知信息整合起来，构建对当前场景的完整认知。比如，在搬运物体时，需要同时考虑物体的形状、重量、材质等特性，以及周围环境的空间布局。

RT-2泛化能力还体现在其思维链（CoT）助其进行多阶段语义推理，完成更复杂任务。DeepMind研究团队展示了将思维链推理纳入RT-2中使其能够进行多阶段语义推理，他们用少量的“增强”数据微调一个RT-2-PaLM-E变种，增强数据中加入了“Plan”步骤，使得VLM首先用自然语言描述机器人将要采取的动作的目的，然后再给出预测的机器人动作标记。通过实验结果可以观察到，具有思维链推理的RT-2能够回答更复杂的命令。

2. 任务规划：模型需要根据目标制定详细的执行计划。这个过程涉及到语义解析、路径规划、动作序列生成等多个环节。比如，要拿起桌子上的水杯，系统需要规划手臂的移动轨迹，考虑避开障碍物，并设计合适的抓取姿态及动作代码。

RT-2动作控制采用的方法是将机器人动作表示为另一种语言，即文本token，并与Web规模的视觉-语言数据集一起训练。代表机器人动作的文本字符串可以是机器人动作token编号的序列，例如「1 128 91 241 5 101 127 217」，该字符串以一个标志开始，该标志指示机器人是继续还是终止当前情节，然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。由于动作被表示为文本字符串，因此机器人执行动作命令就像执行字符串命令一样简单。这种表示方式允许谷歌对现有的视觉-语言模型进行微调，并将其转换为视觉-语言-动作模型。

Voxposer的动作控制实现过程是首先给定环境信息（用相机采集RGB-D图像）和自然语言指令，之后LLM（大语言模型）根据这些内容编写代码，所生成代码与VLM（视觉语言模型）进行交互，指导系统生成相应的操作指示地图（3D Value Map），之后动作规划器将生成的3D地图作为目标函数，直接合成最终操作轨迹。在用LLM和VLM将语言指令映射为3D地图的过程中，系统利用“感兴趣的实体(entity of interest)”来引导机器人进行操作，也就是通过3D Value Map中标记的值来反应哪个物体是对它具有“吸引力”的，哪些物体是具有“排斥性”，比如在打开抽屉的例子中，抽屉就是“吸引”的，花瓶是“排斥”的。

3. 实时调整：在执行过程中，系统需要根据反馈不断优化行为。就像人类在提起一个未知重量的物体时会根据触觉反馈调整施力一样，具身智能系统也需要这种动态适应能力。

目前基于具身智能脑部大模型的技术路线还远未开始收敛，随着后续各类大模型的持续发展，具身智能底层架构同样有变化的可能。

03、SIM 2 REAL：具身智能的“修罗场”

在具身智能的进化之路上，SIM2REAL（从仿真到现实）技术扮演着独特的”道场”角色。想象一个可以随心所欲重启的平行宇宙，这里不存在硬件损耗，不需要担心安全风险，每一次尝试都是成长的养分。通过构建高度逼真的三维仿真环境，系统能够精确模拟物理规律、材料特性和环境变化。

国内已有优秀的团队在进行虚拟训练场的搭建与集成，即空间快速构建3D场景，提供物理正确的仿真环境，并快速低成本生成3D合成数据。他们基于OpenUSD，无缝连接各种DCC、CAD、CAE，通过实时协作提升现有工作流的协作效率，提高沉淀在各个工具上的3D资产的流动性。通过低成本现有方案组合AIGC应用，提升3D场景构建效率，包括2D生3D、大语言模型交互生成3D场景等。

在这个虚拟训练场中，一台机器人可以同时化身成千上百个分身，并行训练不同的技能。比如，一个抓取任务可以在不同的光照条件、不同的物体位置、不同的干扰因素下反复练习。这种训练方式的效率远超现实世界，几小时的仿真训练可能相当于现实世界中数月的练习。

然而，从仿真环境迁移到现实世界并非易事。这就像职业选手在电子游戏中再厉害，到了真实赛场也需要重新适应。仿真环境永远无法完美复制现实世界的所有细节，这种差异被称为”现实鸿沟”（Reality Gap）。为了解决这个问题，研究者们开发了一系列创新方法。域随机化（Domain Randomization）就是其中最有效的策略之一。这种方法通过在仿真环境中随机改变物理参数、视觉外观、环境条件等要素，迫使系统学习更加鲁棒的策略。

这里不可避免的要提到机器人的运控系统，运动控制系统主要通过控制关节电机的扭矩以实现行走、奔跑、跳跃、搬箱子等与运动有关的任务。这种运动控制系统，通俗来说，可以被称为“小脑”。目前的机器人运动控制系统，需要针对不同型号的机器人进行适配，完成适配之后的量产，则可以批量化复制。基于深度强化学习方案的运控效果在鲁棒性上一般远超基于传统控制的方案，主要体现在：抗冲击性更强、运动速度更快、复杂地形适应性更强。

从研究和体会来说，基于强化学习寻找的最优路径属于无监督，拓展能力较强，因此含金量也体现在其他多型机器的运控兼容及稳定方面。

想象一下，如果要训练一个机器人抓取咖啡杯，仿真系统会随机改变杯子的大小、重量、材质，甚至添加各种干扰因素。经过这种”大风大浪”的训练、系统学到的策略以及机器人不断精进的运控系统就能更好地适应现实世界的变化。

同时，通过混合现实训练，将虚拟环境和真实环境结合起来，也大大提高了训练效果。

总体而言，Sim 2 Real技术通过使用合成数据来模拟真实世界的场景，并将这些数据应用于真实物理环境中，以此来缩小模拟与真实世界之间的差距，具有明显的成本优势，并且在隐私保护方面也有很大的作用，但对于模拟器的要求更高，Reality Gap以及迁移过程造成的性能下降等问题仍需要进一步研究解决。

04、行业情况及业内翘楚

在科技变革的浪潮中，具身智能正以令人瞩目的速度重塑产业版图。据数据显示，市场规模从2018年的2,923亿元跃升至2023年的7,487亿元，年复合增长率高达20.7%。这一增长轨迹背后，是中国科技的快速迭代、数字化转型的全面推进，以及人工智能技术的持续突破。就像一个正在觉醒的巨人，具身智能产业正在彰显其无限潜力，预示着一个充满想象力的未来正在到来。

在具身智能的世界中，每一个构成要素如同交响乐中的乐章，共同谱写出人形机器人独特的智能表现，每个构成要素，也是团队研究挖掘标的的切入点。其中，环境感知模块为机器人提供了“眼睛”和“耳朵”，使其能够感知周围环境的细微变化。决策控制模块则担当“头脑”的角色，负责决策和规划。运动控制模块好比“小脑”，确保机器人的灵活和平衡。机械本体模块则是其“骨骼和肌肉”，支撑其每一个动作····

在具身智能的产业版图上，一批创新企业正在书写着行业发展的新篇章。我们一直实时跟踪、学习国内外优秀企业，挖掘潜在优质标的。

05、感悟与体会

具身智能代表了人工智能发展的一个重要方向。它让AI从虚拟世界走向现实世界，从单一的信息处理走向综合的物理交互。目前RT-2和Voxposer等大模型泛化能力仍在提升过程中，未来能否达到商用所需的泛化性能标准存在不确定性。淞灵团队结合不断的行业体会，将继续在感知、认知、行动层布局、研究。

SIM 2 REAL不是具身重点。回顾之前我们团队提出的一个观点：具身智能最终的表征方式可能不仅仅是人形。这里需要有一个延伸的逻辑，即SIM 2 REAL会让具身智能理解环境；REAL 2 SIM会让具身影响环境。这样一个完美的闭环，将迎来AI更高阶的发展。其中必不可少的是再次对AI基础建设的改造，以上可能又将是一波AI及其基础建设发展的周期。

随着中美科技竞赛的“军备化”预演趋势，我们认为模型层中国可能会在一定阶段处于追赶、跟随的状态；数据丰富的优势让 “中国涌现能力”后，我国可能会在AI Agent及具身领域展现特色优势。具身领域的“手”、“眼”、“脑”、“模型”等都将是我们关注及学习的重点。我们将持续不断深耕研究，挖掘最先进、前沿的的赛道资讯，希望和感兴趣的朋友多多交流探讨。正如著名科学家所说：”智能不仅存在于头脑中，也存在于身体里。”具身智能的发展，正在让这句话变成现实。让我们拭目以待，见证这场改变的发生。

关于一村淞灵

一村淞灵是一村资本位于深圳的全资子公司，专注AI早中期投资，打造淞灵AI生态朋友圈。

关于深圳一村淞灵私募创业投资基金管理有限公司（简称“一村淞灵”或“公司”）一村淞灵成立于2013年，是一家位于深圳的长期聚焦人工智能、数字经济的私募股权投资管理机构。自成立以来，以其深植产业的投资逻辑、成熟专业的投资能力，公司先后发起并受托管理了国家科技部、国家发改委、深圳市引导基金、青岛市经信委、深圳市天使引导基金、前海引导基金等多支政府参股基金，在管资产规模达20亿元。

通过践行产融结合的投资策略和管理模式，经典案例包括：生命科学智造企业华大智造、医药数字化平台“药师帮”、光电半导体企业“纵慧芯光”、全球领先的AI视觉服务商“视比特机器人”、全栈式3D视觉解决方案提供商“光鉴科技”、致力于颠覆式创新的AI芯片设计商“墨芯科技”、专注于云计算和数据中心数据处理器芯片（DPU）和解决方案的领先半导体公司“云豹智能”。