邓丽欣艳照 下载次数破39万!CMU、Meta长入发布VQAScore文生图优化有筹算
文爱 电报
发布日期:2024-11-30 04:17 点击次数:140
剪辑:LRST邓丽欣艳照
av迅雷【新智元导读】VQAScore是一个把握视觉问答模子来评估由文本辅导生成的图像质地的新要津;GenAI-Bench是一个包含复短文本辅导的基准测试集,用于挑战和提高现存的图像生成模子。两个器具不错匡助究诘东说念主员自动评估AI模子的性能,还能通过采用最好候选图像来履行改善生成的图像。
频年来,生成式东说念主工智能(AIGC)激励等闲温雅。Midjourney、Imagen3、Stable Diffusion和Sora等模子随机把柄当然谈话辅导词生成好意思不雅且传神的图像和视频,广受用户深爱。关联词,这些模子在处理复杂的辅导词时仍存在不及。举例,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追玄色的狗」时,模子可能会诞妄生成两只黑狗,或将「追赶」诬陷为两只狗在「玩耍」。有什么办法不错自动发现这些模子的不及,并进一步提高它们呢?为责罚这一问题,CMU和Meta团队长入推出了全新的评估方针VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模子在复杂辅导词下的进展。ECCV’24论文畅达::https://arxiv.org/abs/2404.01291CVPR’24 SynData最好论文畅达:https://arxiv.org/abs/2406.13743论文代码:https://github.com/linzhiqiu/t2v_metrics模子下载:https://huggingface.co/zhiqiulin/clip-flant5-xxlVQAScore模子:https://huggingface.co/zhiqiulin/clip-flant5-xxlGenAI-Bench数据集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench这些效果已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模子,被誉为刻下文生图界限越过CLIP等模子的最好评估有筹算!布景先容频年来,文生图模子(如DALL-E 3、Imagen3、Sora等)发展连忙,但怎么准确评估这些模子的进展已经一个重要问题。尽管很多公司给与东说念主类评估(Human Evaluation)来提高适度的准确性,但这种阵势本钱高、难以大范围应用,并且缺少可复现性。在图片生成界限,已有多种要津使用模子来自动评估(Automated Evaluation)生成图像的进展,其中常见的方针包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。关联词,这些方针确切实足好吗?现存自动化方针的不及在评估两张图片的相通性(similarity)时,传统方针LPIPS等要津依靠预锤真金不怕火的图像编码器,将图像特征镶嵌后再计较距离。关联词,这类要津只可评估图像与图像之间的相通度(image-to-image metric),而无法判断文本和图像之间的相通度(text-to-image metric)。为了责罚这一问题,刻下主流的文生图评估给与了CLIPScore,通过沉寂的图像编码器和文本编码器邓丽欣艳照,将图像和文本镶嵌到吞并特征空间,并通过计较特征相通度来判断它们的匹配进程。关联词,CLIPScore存在严重的「bag-of-words」问题:也即是说,CLIP在处理文本时可能忽略词序,浑浊像「月亮在牛上头」和「牛在月亮上头」这么的句子。这使得模子难以准确收拢复短文本中的重要信息。为了责罚这一问题,CMU和Meta的究诘团队提倡了VQAScore,给与更纷乱的生成式VQA模子(如GPT-4o)来更准确地评估文生图模子:VQAScore:一种绵薄灵验的评估方针究诘团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉谈话模子,将图像与辅导词之间的相通度界说为模子在申报「这个图像是否泄露了[辅导词]?请申报是或否。」时给出「是」(Yes)谜底的概率:举例,在计较某张图像与辅导词「牛在月亮上头」之间的相通度时,VQAScore会将图像和问题「这个图像是否泄露了『牛在月亮上头』?请申报是或否。」输入模子,并复返模子采用「是」的概率。另外,究诘团队发现,刻下主流的VQA模子(如LLaVA-1.5)使用了具备单向(auto-regressive)珍意见机制的谈话模子(如Llama)。这种机制导致模子在索要图像特征时,无法提前获取辅导词的完满信息。为了更灵验的索要视觉特征,究诘团队使用开源数据锤真金不怕火了一个更强的CLIP-FlanT5 VQA模子。该模子给与了具备双向珍意见机制的谈话模子FlanT5,使得图像特征索要随机把柄输入的辅导词动态调遣。究诘标明,这一机制在提高VQA模子对复杂辅导词的意会方面效果权臣。VQAScore比主流评估方针更绵薄高效。很多传统方针依赖大量东说念主类标注(如 ImageReward、PickScore)或独有模子(如GPT-4Vision)身手取得好进展。比拟之下,VQAScore具备以下中枢上风:1. 无需东说念主类标注:VQAScore能径直把握现存的VQA模子取得优异进展,无需在东说念主工标注数据上进行独特微调。2. 分数更精确:使用GPT-4给图片打分(如在0到100之间打分)时,模子频频会平缓给出高分(如90),而忽略图片的真履行量。比拟之下,VQAScore使用概率值来判断图片与辅导词的相通度,适度愈加精确。VQAScore实验适度究诘东说念主员在大量复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。适度泄露,VQAScore在扫数图像、视频和3D生成任务的基准上越过了CLIPScore等流行方针,取得了最好进展。值得珍惜的是,VQAScore给与了开源模子(CLIP-FlanT5),却仍大幅越过了使用更强闭源模子(如PALI-17B和GPT-4)的要津(如VQ2、ViperGPT 等)。此外,VQAScore也越过了依赖辅导瓦解进行视觉推理的先进要津(如 CVPR'23最好论文Visual Programming和ViperGPT等),进一步考证了端到端评估有筹算的灵验性。最新的谷歌DeepMind Imagen3申诉还指出,使用更纷乱的VQA模子(如 Gemini)不错进一步提高VQAScore的进展,突显了其在当年生成式模子评测中的后劲。GenAI-Bench:由瞎想师蚁合的高难度文生图基准为了更好地评估文生图模子过甚评估方针的性能,究诘团队推出了GenAI-Bench。该基准包含1600个由瞎想师蚁合的复杂辅导词,阴私了10种生成模子(如DALL-E 3、Midjourney、SDXL等),并配有跳跃80,000条东说念主工标注。GenAI-Bench比拟较之前的基准有以下上风:1. 更具挑战性:究诘标明,大多数文生图/视频模子在GenAI-Bench上进展仍有不及,还有大量的提高空间。2. 幸免虚浮词汇:扫数辅导词均经由严格筛选,幸免使用假大空的词语,确保评估更具客不雅性。3. 细粒度手段分析:GenAI-Bench能提供更缜密的手段分类和分析,匡助究诘东说念主员深入了解模子在不同才略上的具体进展。GenAI-Rank:用VQAScore来提高文生图进展究诘东说念主员构建了一个新的GenAI-Rank基准,为每个辅导词使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9张候选图像。究诘标明,从这些候选图像中复返VQAScore得分最高的图像,不错权臣提高文生图模子的效果。这一要津无需微调生成模子自己,因此也能优化(黑箱)独有模子,如DALL-E 3。实验适度进一步评释,VQAScore在图像排序上比其他要津(如CLIPScore、PickScore等)愈加灵验。结语VQAScore和GenAI-Bench为文生图模子提供了更精确且全面的评估,已被Imagen3、VILA-U、RankDPO等多个模样用于更好地评估和优化最新的生成式模子。究诘团队已开源代码和数据集,期待当年更多探索与进展!团队先容
团队的一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士究诘生,由Deva Ramanan教师调换,专注于视觉-谈话大模子的自动评估与优化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。其究诘效果在生成模子和多模态学习界限受到了学术界和工业界的等闲招供。
Pengchuan Zhang是Meta AI(原Facebook AI究诘院)的东说念主工智能究诘科学家,曾在微软究诘院担任高档究诘科学家。他的究诘界限主要洽商在深度学习、计较机视觉和多模态模子等想法,曾发表多项具有深切影响力的效果,举例AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在顶级会议如CVPR、ICCV、NeurIPS等发表了大量高影响力论文,是计较机视觉和多模态模子界限的领军东说念主物之一。
Deva Ramanan教师是计较机视觉界限的外洋闻明学者,现任卡内基梅隆大学教师。他的究诘涵盖计较机视觉、机器学习和东说念主工智能界限邓丽欣艳照,曾获取多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终生设置奖、2012年的IEEE PAMI后生究诘员奖、2012年《公共科学》评比的「十位凸起科学家」之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性使命(如COCO数据集)获取的Koenderink奖。此外,他的论文在CVPR、ECCV和ICCV上屡次获取最好论文提名及荣誉奖。他的究诘效果对视觉识别、自动驾驶、和东说念主机交互等应用产生了深切影响,是该界限极具影响力的科学家之一。