像映射模型来检索反应的视觉印象,然后使用文本和视觉信息生成反应。文本生成
对于一般的文本生成任务,图像检索也可以帮助扩展上下文。杨等人
(2022a)通过检索现有图像和合成新生成的图像来增强文本模型的
"想象力"。因此,为语言模型注入想象力可以提高许多下游自然语言任务的性能。类似的例子还有
Zhu
等人
(2023)将
"想象力
"。
增强与合成图像和检索图像进行了比较,认为机器生成的图像由于更好地考虑了上下文,可以提供更好的指导。此外,Fang
和
Feng
等人的研究也证明了这一点、
Fang
和
Feng
(2022)表明,通过检索短语级别的视觉信息,机器翻译可以得到显着改善,尤其是在文本上下文有限的情况下。图像
RAG
还能帮助医疗报告生成等低资源任务。
可以生成图像和文本的混合物。它表明,在知识密集型生成任务中,检索增强图像生
本章未完,请点击下一页继续阅读! 第6页 / 共7页