另一个限制是:大多数现有的语言-视觉库支持的任务、数据集和/或模型有限。例如,MMF(用于多模态 AI 模型的多模态框架)主要支持特定任务的微调模型,但性能较差;X-modaler(用于跨模态分析的代码库——图像字幕、视频字幕和视觉-语言预训练)支持的任务和数据集少得多,对基础模型的支持也有限。其他正在进行的研究,包括 TorchMultimodal 和 UniLM,目前大多处于开发阶段,功能有限。
此外,这些库的设计并不利于轻松获取现成的数据集和模型。这为想要利用建模功能和资源的用户设置了额外的障碍。
最后,大多数这些库不提供微调的模型检查点或广泛的基准测试结果。这导致需要付出额外的努力来复制模型性能。
为了让新兴的语言视觉智能和能力能够被更广泛的受众所使用,促进其实际应用,并减少未 手机号数据库列表 来开发中的重复工作,我们构建了LAVIS(LAnguage-VISion 的缩写),这是一个开源库,它为以下功能提供了统一的接口:
在丰富的任务和数据集上训练和评估最先进的语言视觉模型
基于定制语言视觉数据的现成推理
通过新模型、任务和数据集轻松扩展。
LAVIS 的目标包括:
作为语言视觉研究人员和从业人员的一站式图书馆,利用语言视觉领域的最新发展
欢迎新人加入该领域,分享他们的想法,帮助社区发展
促进集体努力,扩大所开发技术的研究和实际影响。
如表 1 所示,LAVIS 是目前最全面的语言视觉库,我们正在持续改进它。即将推出:更强大的语言视觉模型,以及文本转图像生成等新功能。
表 1:LAVIS 与现有语言视觉库/代码库的正面比较。其他库/代码库的功能和应用领域均无法与 LAVIS 相提并论。注:UniLM 和 TorchMultimodal(alpha 版本)中的语言视觉模型尚在开发中,因此本表仅包含截至本文发布时它们所支持的功能。