nbsp;
周和龙
(2023)在生成标题前使用了一种风格感知视觉编码器来检索图像内容。除了对视觉信息进行简单的编码外,Cho
等人还使用了视觉编码器、
Cho
et
al.
(2022)
进一步使用图像文本对之间的多模态相似性作为奖励函数来训练更精细的字幕模型。除了检索图像元素外、
过检索新闻文章中的视觉基础实体来处理新闻图片标题。视觉基础对话Lee
et
al.,
2021b)
要求检索视觉信息以生成相关的对话回复
et
al.
(2021)用基于
KNN
的信息获取(KIF)模块增强了生成模型,该模块可检索图像和维基知识。梁等人
(2021)从图像索引中检索与对话框相关的图像,作为响应生成器的基础
等人
(2021)训练了一个单词图
本章未完,请点击下一页继续阅读! 第5页 / 共7页