CMU与Meta共同开发的文本至视觉图像生成评价技术——VQAScore

171 0 0

VQAScore代表的是什么？

VQAScore是由CMU与Meta共同研发的一种评价技术，旨在利用视觉问答（VQA）模型来检验由文本指令生成的图像的质量水平。该方法通过计算“这张图是否展示了{text}？”这一问题得到肯定回答的概率，从而衡量图像和文本提示之间的匹配度。其主要优点在于无需依赖额外的人工标注工作，而是直接运用现有的VQA模型提供精确的概率数值评估结果，相较于传统的评价标准如CLIPScore更为精准。目前，VQAScore已被广泛应用于多个项目中，例如Imagen3，在自动评定与改进最新生成式算法方面发挥了重要作用。

VQAScore的核心作用

评价图片和文字描述之间的一致性程度VQAScore通过评估生成图像与指定文本描述相匹配的程度来计算出一个以“是”为回答的概率值。
自动评价系统采用自动化的手段来评价图像创作模型的表现，摆脱了对人力打分的依赖，有利于实现高效且大范围的性能评测。
提升评价的精确度改进当前评价手段在应对复杂的文字指令方面的局限性，以获得更加精准的评价结论。
提供多样化的创作服务VQAScore可用于评价从文本到视觉效果的生成任务在视频及三维模型中的表现。
性能评估及模型优化借助于GenAI-Bench基准测试集合，VQAScore能够协助研究者们发现模型存在的不足之处，并为模型优化提供指引。

VQAScore的核心技术机制

问题的标准化表述把文本提示转化为一个简短的问答形式，比如：“此图是否展示{text}？请用是或否来回应。”
图文结合编码采用VQA模型，把图片与已经转化为tokens序列的问题一并输入，实现共同编码处理。
估计答案的可能性VQA模型的解码器生成了对答案“肯定”或“否定”的概率分布。
评估匹配分数VQAScore被界定为模型预测答案为“肯定”的可能性值，此值体现了图像和文字描述之间的匹配度。
基于编码器-解码器的双向往来结构VQAScore采用的是构建在双向编码器-解码器框架之上的CLIP-FlanT5模型，该模型能够使图像嵌入与问题信息相互依存，这种方式对于提升对复杂文本描述的理解和处理能力尤为有利。
不必进行附加的数据调整优化在训练过程中，VQAScore利用图片与问题答案的配对；而在评估阶段，则不需要为特定的数据集做进一步的微调。

VQAScore项目的网址

官方网站项目：访问链接 https://linzhiqiu.github.io/papers/vqascore 以获取更多信息。
Git代码库：在GitHub上可以找到由linzhiqiu维护的t2v_metrics项目。
关于arXiv上的科技文章在学术资源共享平台(arXiv)上，可以查阅编号为2404.01291的研究论文。
网上试用演示版本访问该链接以查看由zhiqiulin创建的VQAScore项目页面：https://huggingface.co/spaces/zhiqiulin/VQAScore