科学家用STEM数据集评测神经网络模型,助力通用人工智能实现进程

科技 2024-04-30 15:32 阅读:

在解决现实世界问题时,STEM技能起着至关重要的作用。对于人工智能领域来说,理解视觉-文本的多模态信息是掌握STEM技能的关键。然而,现有数据集主要集中在检验模型解决专家级难题能力上,无法反映模型在基础知识方面的掌握情况。

为了克服这一局限性,来自北京大学和美国圣路易斯华盛顿大学的研究团队成功构建了首个多模态STEM数据集,并对大语言模型与多模态基础模型进行了评测。结果显示,即使是最先进的人工智能模型,在STEM基础水平上仍有提升空间,与人类智能相比存在一定差距。

通过对数据集进行详尽分析和评测,研究人员发现模型在抽象知识与复杂推理任务上表现欠佳。他们还发现模型的测验分数随题目年级升高而降低,模型在问题变长、选项数量变多的情况下表现下降。此外,他们还评估了模型的准确率与测验考试分数之间的相关性,发现两者呈显著正相关。

通过这项研究,科学家们希望推动多模态大模型的研究,使模型能够更好地理解STEM技能并解决实际问题。他们计划继续收集数据,推出更多评测数据集,加速通用人工智能的实现进程。通过不断改进模型能力,他们相信只有在基础理工科和文科领域取得突破,人工智能才能得到更广泛的应用。