微软的新视觉语言（VL）系统大大超越了人类的表现

Windows 11 Pro ISO文件在哪下载最新版？如何下载原装纯净版Win11 ?点击进入持续更新!

视觉语言（VL）系统允许搜索相关图像以进行文本查询（反之是然），并使用自然语言描述图像的内容。通常，VL系统使用图像编码模块和视觉语言融合模块。微软研究院最近开发的图像编码称为一个新的对象属性检测模型VINVL （V isual功能在 V ision-大号anguage）。

当VinVL与OSCAR 和 VIVO等VL融合模块结合使用时，新的Microsoft VL系统就可以在最具竞争力的VL排行榜中占据领先地位，包括视觉问题解答（VQA），Microsoft COCO图像字幕和Novel Object Captioning（ nocaps）。微软研究团队还强调，这种新的VL系统在CIDEr方面（92.5与85.3）在nocaps排行榜上大大超过了人类的表现。

VinVL在改善图像编码以增强VL理解方面显示出巨大潜力。如本文中的示例所示，我们新开发的图像编码模型可以使各种VL任务受益。尽管我们获得了令人鼓舞的结果，例如在图像字幕基准上超过了人类的表现，但我们的模型绝不能达到人类对VL理解的智能。未来工作的有趣方向包括：（1）通过利用海量图像分类/标记数据进一步扩大对象-属性检测的预训练，以及（2）将跨模式VL表示学习的方法扩展到建立基于感知的语言模型，可以像人类一样以自然语言为视觉概念打下基础，反之是然。

Microsoft VinVL已集成到Azure认知服务中，该服务支持各种Microsoft服务，例如Seeing AI，Office和LinkedIn中的图像字幕以及其他功能。微软研究团队还将向公众发布VinVL模型和源代码。

下载最新版Windows 11 Pro ISO文件：点击进入持续更新原装纯净版Win11

Windows 11 Pro ISO文件在哪下载最新版？如何下载原装纯净版Win11 ?点击进入 持续更新!

Hi，您需要填写昵称和邮箱！

Windows 11 Pro ISO文件在哪下载最新版？如何下载原装纯净版Win11 ?点击进入持续更新!