对话刘铭教授：多模态知识图谱构建初探

发布时间：2024-09-03

多模态知识图谱正在成为连接人工智能与现实世界的重要桥梁。这种新型知识表示方法不仅融合了文本、图像、视频等多种模态的信息，还能捕捉到更丰富的上下文关系和深层关联，为机器理解复杂世界提供了新的可能。在这一领域，哈尔滨工业大学的刘铭教授及其团队的研究工作尤为引人注目。

刘铭教授在CCF TF第99期“AIGC时代的多模态知识图谱构建与应用”活动中分享了其团队在多模态知识图谱构建方面的最新进展。他指出，从单模态到多模态的转变是知识图谱发展的重要趋势。在单模态阶段，研究主要集中在条件性知识图谱的构建技术上，包括实体识别、关系抽取等关键环节。而在多模态阶段，研究重点转向了如何有效整合不同模态的信息，如图文结合的实体关系抽取和视频场景图生成等。

构建多模态知识图谱面临诸多挑战。首先是信息抽取的难度增加。与传统的文本信息抽取相比，多模态信息抽取需要处理更加复杂的数据结构和语义关系。其次是知识表示的复杂性。如何将不同模态的信息统一到一个知识图谱中，同时保持其准确性和一致性，是一个亟待解决的问题。此外，多模态知识图谱的规模和复杂度也带来了存储和计算的挑战。

尽管如此，多模态知识图谱在AIGC（AI Generated Content）时代展现出巨大的应用潜力。在医疗领域，北京邮电大学的研究人员构建了一个癫痫领域的多模态知识图谱，将患者的脑电特征以视觉模态嵌入其中，不仅提高了脑电分析的可解释性，还构建了更加直观的知识表示。在智能问答系统中，多模态知识图谱可以提供更全面、更准确的答案，特别是在处理涉及图像或视频的问题时。

刘铭教授认为，多模态知识图谱的构建和应用将推动人工智能向更加智能和通用的方向发展。他提出了知识在大模型中嵌入的三种方式：输入层面嵌入、模型层面嵌入和输出层面嵌入。这些方法为如何将多模态知识图谱与当前流行的大型预训练模型相结合提供了新的思路。

展望未来，多模态知识图谱的研究将朝着更加智能、更加开放的方向发展。一方面，研究人员需要开发更先进的算法和技术来处理复杂的多模态数据；另一方面，构建更加开放和动态的多模态知识图谱，以适应快速变化的信息环境。此外，如何在保护隐私的同时实现知识共享，也是未来研究的重要方向。

多模态知识图谱的构建不仅是一项技术挑战，更是连接人工智能与现实世界的桥梁。它将为机器提供更全面、更深入的理解世界的能力，推动人工智能向更加智能、更加通用的方向发展。在这个过程中，像刘铭教授这样的研究者的工作无疑将发挥关键作用。