字节发布全新视觉基础模型ViTamin,多项任务实现SOTA,CVPR2024强势入选!

科技动态 2024-04-26 21:04 阅读:

字节跳动团队最近发布了一款全新的视觉基础模型ViTamin,专为应对视觉语言时代的挑战而设计。与传统的ViT模型相比,ViTamin在ImageNet零样本准确率上取得了显著提升,超越了同类模型。此外,在分类、检索、开放词汇检测和分割、多模态大语言模型等多个基准任务上,ViTamin都展现出了优异的性能。

ViTamin采用了三个阶段的混合架构,结合了轻量级的MBConv Blocks和可扩展的Transformer Blocks。这种设计使得ViTamin在处理不同规模任务时表现出色,尤其在零样本ImageNet准确率和下游任务表现方面更是引人注目。通过对比图像特征和语言特征,ViTamin能够学习到更加有效的表示,为各项任务的实现提供了强大支持。

在实验中,研究团队发现,ViTamin在零样本性能上表现出色,尤其是在ImageNet准确率和各项下游任务中取得了多项SOTA。不仅如此,ViTamin还在开放词汇检测和分割、多模态大模型等任务上展现出了强大的潜力,为视觉语言时代的发展提供了新的思路和可能性。

https://www.jincai100.comViTamin的发布标志着字节跳动团队在视觉模型领域的又一次突破,为未来的研究和发展奠定了坚实基础。随着CVPR2024的临近,相信ViTamin将在学术界引起更多关注和讨论,为计算机视觉领域带来新的活力和创新。ViTamin的成功发布,必将为字节跳动团队赢得更多荣誉和认可,也为整个行业注入了新的活力和动力。