根据Arxiv页面显示,苹果公司正式公布了他们自研的多模态大型模型MM1,该模型提供了30亿、70亿和300亿三种参数规模,并具备图像识别和自然语言推理能力。
这一研究表明,MM1多模态大型模型由密集模型和混合专家(MoE)变体组成,在预训练指标中取得了领先水平,并且在多项多模态基准测试上经过监督微调后依然能够保持竞争力。MM1在上下文预测、多图像处理和思维链推理等方面表现出色,同时在进行指令调优后展现出强大的少样本学习能力。
苹果研究团队主要利用MM1模型进行实验,并通过控制各种变量,找出影响模型效果的关键因素。研究结果显示,图像分辨率和图像标记数量对模型性能影响较大,而视觉语言连接器对模型的影响较小。此外,不同类型的预训练数据也会对模型的性能产生不同的影响。