Windows 11 Pro ISO文件在哪下载最新版?如何下载原装纯净版Win11 ?点击进入 持续更新!
视觉语言(VL)系统允许搜索相关图像以进行文本查询(反之是然),并使用自然语言描述图像的内容。通常,VL系统使用图像编码模块和视觉语言融合模块。微软研究院最近开发的图像编码称为一个新的对象属性检测模型VINVL (V isual功能 在 V ision-大号anguage)。
当VinVL与OSCAR 和 VIVO等VL融合模块结合使用时,新的Microsoft VL系统就可以在最具竞争力的VL排行榜中占据领先地位,包括视觉问题解答(VQA),Microsoft COCO图像字幕和Novel Object Captioning( nocaps)。微软研究团队还强调,这种新的VL系统在CIDEr方面(92.5与85.3)在nocaps排行榜上大大超过了人类的表现。
VinVL在改善图像编码以增强VL理解方面显示出巨大潜力。如本文中的示例所示,我们新开发的图像编码模型可以使各种VL任务受益 。尽管我们获得了令人鼓舞的结果,例如在图像字幕基准上超过了人类的表现,但我们的模型绝不能达到人类对VL理解的智能。未来工作的有趣方向包括:(1)通过利用海量图像分类/标记数据进一步扩大对象-属性检测的预训练,以及(2)将跨模式VL表示学习的方法扩展到建立基于感知的语言模型,可以像人类一样以自然语言为视觉概念打下基础,反之是然。
Microsoft VinVL已集成到Azure认知服务中,该服务支持各种Microsoft服务,例如Seeing AI,Office和LinkedIn中的图像字幕以及其他功能。微软研究团队还将向公众发布VinVL模型和源代码。