字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA,可解读视频内容

来源: 巴比特478天前
据站长之家 1 月 8 日报道,字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA,该模型专为视频内容理解而设计,能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式,Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。 Vista-LLaMA 在多个开放式视频问答基准测试中表现卓越,尤其在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩。其在零样本 NExT-QA 测试中实现了 60.7% 的准确率,在 MSRVTT-QA 测试中达到了 60.5% 的准确率,超过了目前所有的 SOTA 方法。这些结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,153.62亿
2 欧易OKX欧易OKX ¥2,183.54亿
3 HTXHTX ¥385.97亿
4 CoinbaseCoinbase ¥140.29亿
5 芝麻开门芝麻开门 ¥1,120.25亿
6 BitgetBitget ¥1,681.39亿
7 BybitBybit ¥2,020.60亿
8 Crypto.comCrypto.com ¥255.41亿
9 BitfinexBitfinex ¥24.75亿
10 抹茶抹茶 ¥2,111.43亿