的内在联系可视化、将它们的方法论联系起来以及概述它们的应用方面缺乏统一的认识。因此,我们对多模态检索增强生成(RAG)的最新进展进行了调查。具体来说,我们将当前的研究分为不同的模式,包括图像、代码、结构化知识、音频和视频。对于每种模式,我们都会使用相关关键词系统地搜索
ACL
文集和谷歌学术,并进行人工筛选,以确定其与调查的相关性。因此,我们收集了
146
篇论文进行详细分析。附录
A.1此外,我们还提供了搜索详情、统计数据和趋势分析图,这表明自大规模通用模型出现以来,多模态
RAG
论文的发展确实非常迅速。在每种模式中,我们将相关论文按照不同的应用进行分组讨论。我们希望通过深入调查,帮助研究人员认识到多模态
RAG
的重要性。我们的贡献在于,我们发现了以不同形式纳入知识的方法,并鼓励对现有技术进行调整和改进,以适应快速发展的法学硕士领域。
摘要:随着大型语言模型(LLMs)的普及,使用多模态增强
LLMs
的生成能力成为一个重要趋势,这使得
LLMs
能够更好地与世界交互。然而,对于在哪个阶段以及如何结合不同的模式,目前还缺乏统一的认识。在本调查报告中,我们回顾了通过检索多模态知识来辅助和增强生成模型的方法,这些知识的格式包括图像、代码、表格、图表和音频。这
本章未完,请点击下一页继续阅读! 第5页 / 共6页