苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
来源: 陀螺科技48天前
8 月 23 日消息,称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。 苹果公司首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中「慢流」选取少量高分辨率帧捕捉场景细节,「快流」选取更多低分辨率帧追踪运动变化。 测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。 该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。

0

0
热门新闻
- 1美联储2025年降息对非必需消费品与科技股的深远影响
- 212.5万美元一枚!比特币只想掀掉一切天花板
- 3比特币引领加密货币市场:4.35万亿美元市值背后的战略配置与宏观经济驱动
- 4币安人生上线币安Alpha,三天市值突破1.5亿美元的背后
- 5比特币有望在2025年第四季度突破15万美元:宏观经济与机构采用共同推动
- 6比特币今日新闻:飙升至历史高点,对冲美元贬值与政策波动成焦点
- 7OpenAI将ChatGPT重塑为多功能应用平台,推出App SDK与AgentKit
- 8SEC新规加速Solana与XRP ETF审批,75天时间框架点燃市场期待
- 9「币安人生」暴涨背后的流量密码:CZ与何一的推波助澜
交易平台最新公告查看更多>
成交额排行榜
- 交易所
- 币种
排名 | 交易所 | 成交额 |
---|---|---|
1 | ![]() |
¥8,408.89亿 |
2 | ![]() |
¥2,919.52亿 |
3 | ![]() |
¥546.68亿 |
4 | ![]() |
¥201.01亿 |
5 | ![]() |
¥2,311.57亿 |
6 | ![]() |
¥1,951.49亿 |
7 | ![]() |
¥2,394.63亿 |
8 | ![]() |
¥13.94亿 |
9 | ![]() |
¥135.45亿 |
10 | ![]() |
¥699.94亿 |