分享自:

场景驱动的多模态知识图谱构建及其在具身人工智能中的应用

期刊:IEEE Transactions on Knowledge and Data EngineeringDOI:10.1109/TKDE.2024.3399746

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


场景驱动的多模态知识图谱构建方法及其在具身人工智能中的应用

一、作者与发表信息
本研究由Yaoxian Song(复旦大学)、Penglei Sun(复旦大学)、Haoyu Liu(浙江实验室)、Zhixu Li(复旦大学)、Wei Song(浙江实验室)、Yanghua Xiao(复旦大学)及Xiaofang Zhou(香港科技大学)共同完成,发表于2024年11月的《IEEE Transactions on Knowledge and Data Engineering》(第36卷第11期)。研究得到中国国家自然科学基金、浙江省实验室开放研究项目等资助。

二、学术背景与研究目标
科学领域:研究属于具身人工智能(Embodied AI)与知识工程交叉领域,聚焦机器人环境交互中的场景知识表示问题。
研究动机:当前具身AI依赖通用知识库(如ConceptNet)或预训练模型(如GPT-4),但存在两大瓶颈:
1. 通用知识库缺陷:数据稀疏、类别不平衡且收集成本高;
2. 预训练模型局限:知识不确定性高、难以动态维护且缺乏可解释性。
研究目标:提出一种结合符号知识与参数知识的场景驱动多模态知识图谱(Scene-MMKG)构建方法,通过统一的知识注入框架提升机器人移动(mobility)与操作(manipulation)任务的性能。

三、研究方法与流程
研究分为三大核心流程:

  1. 基于提示工程的模式设计(Prompt-based Schema Design)

    • 场景概念挖掘:利用大型语言模型(LLMs)从自然语言场景描述中提取初始概念集(如“厨房”场景中的“餐具”“家具”),通过零样本提示模板生成候选概念。
    • 本体扩展与聚类:结合Probase、WordNet等知识库扩展概念的上下位关系(如“一次性筷子”→“餐具”),并通过语义相似度(阈值γ1=0.7)合并冗余概念,形成场景驱动的本体模式。
  2. 知识填充(Knowledge Population)

    • 通用知识整合:从ConceptNet、ATOMIC等知识库中抽取与场景模式匹配的感知知识(如物体颜色)与统觉知识(如“杯子用于喝水”)。
    • 场景导向知识采集:通过互联网或体感游戏收集特定场景的多模态数据(如厨房物体的真实图像与合成渲染图),补充细粒度视觉属性。冲突时优先保留场景数据。
  3. 质量控制与优化(QC&R)

    • 属性层次化:将复合属性(如“椅脚长度”)拆解为“部件(椅脚)+通用属性(长度)”,构建层级结构。
    • 语义聚合:利用预训练模型计算属性相似度(阈值γ2=0.7),合并同义属性(如“尺寸”与“测量值”),缓解长尾分布问题。

四、实验验证与结果
研究实例化了一个室内机器人知识图谱ManipMob-MMKG(含11,750节点、178,620边和34,896张图像),并在两类任务中验证其有效性:

  1. 视觉语言导航(VLN)任务

    • 对比基线:与通用知识库(ConceptNet)相比,ManipMob-MMKG将轨迹长度(TL)从26.26缩短至20.38(未见过场景),成功率加权路径长度(SPL)提升4.29(11.84→16.13)。
    • 关键发现:多模态知识(图像+文本)比纯文本知识提升SPL 6.68(53.81→60.49),且去噪模块进一步优化性能(TL降低2.11)。
  2. 3D物体语言 grounding 任务

    • 性能优势:在非视觉描述(如“带半圆形把手”)场景下,ManipMob-MMKG将准确率从75.3%提升至78.4%,超越预训练模型(如BLIP-2)。
    • 案例解析:如图5所示,知识检索模块通过补充“抽屉”“门板”等部件的视觉特征,帮助模型正确识别目标物体。

五、研究结论与价值
1. 科学价值:提出首个面向具身AI的场景驱动知识图谱构建框架,解决了通用知识库与预训练模型在场景适配性上的不足。
2. 应用价值:ManipMob-MMKG可作为机器人社区的标准知识库,其构建方法显著降低数据收集成本(仅需5人4天完成)。
3. 方法论创新:通过提示工程自动化模式设计,结合层次化属性优化,实现了知识质量与效率的平衡。

六、研究亮点
- 多模态融合:首次在知识图谱中系统整合视觉与文本模态,支持机器人跨模态推理。
- 动态可维护性:符号化表示允许人工干预与实时更新,优于黑箱参数模型。
- 任务适配性:实验证明知识注入无需重构模型架构即可提升下游任务性能。

七、其他贡献
- 开源项目网站(https://sites.google.com/view/manipmob-mmkg)提供知识图谱与代码。
- 提出的QC&R方法可泛化至其他领域的长尾知识管理。


该研究为具身AI的场景认知提供了可扩展、可解释的知识基础设施,其方法论的通用性也为多模态知识工程树立了新范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com