苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手

来源: 陀螺科技1天前

8 月 23 日消息,称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。 苹果公司首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中「慢流」选取少量高分辨率帧捕捉场景细节,「快流」选取更多低分辨率帧追踪运动变化。 测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。 该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。

利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥1.05万亿
2 欧易OKX欧易OKX ¥3,968.20亿
3 HTXHTX ¥758.86亿
4 CoinbaseCoinbase ¥252.01亿
5 芝麻开门芝麻开门 ¥3,933.12亿
6 BitgetBitget ¥3,207.47亿
7 BybitBybit ¥3,283.99亿
8 双子星(Gemini)双子星(Gemini) ¥33.12亿
9 UpbitUpbit ¥176.12亿
10 Crypto.comCrypto.com ¥804.68亿