苹果新 AI 模型长视频理解夺冠，小至 1B 版本也领先对手

来源: 陀螺科技48天前

8 月 23 日消息，称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型，在 1B、3B、7B 参数规模下，均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。苹果公司首先研究推出了 SlowFast-LLaVA 开源模型，最大的亮点是创新双流（two-stream）设置，其中「慢流」选取少量高分辨率帧捕捉场景细节，「快流」选取更多低分辨率帧追踪运动变化。测试显示，该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录，而且 1B 版本也能领先竞争对手。同时，它在知识问答、数学推理、OCR 等图像相关任务上表现出色，实现视频与图像的通用理解能力。该项目完全基于公开数据集训练，方便学术与产业复现，并已在 GitHub 与 Hugging Face 开源。