谷歌 DeepMind 推出 Mirasol3B 模型，旨在提高对长视频输入的理解能力

来源: 巴比特624天前

据 VentureBeat 报道，本周二，谷歌 DeepMind 披露了其人工智能研究的一项重大进展，提出了一个新的自回归模型，旨在提高对长视频输入的理解能力。这个被命名为“Mirasol3B”的新模型展示了一种突破性的多模态学习方法，能以更综合、更高效的方式处理音频、视频和文本数据。谷歌研究院的软件工程师 Isaac Noble 和谷歌 DeepMind 的研究科学家 Anelia Angelova 表示，构建多模态模型的挑战在于模态的异质性。他们解释说：“有些模态可能在时间上很同步（如音频、视频），但与文本不一致。”“此外，视频和音频信号的数据量比文本大得多，因此在多模态模型中将它们结合在一起时，视频和音频往往无法被完全利用，需要进行不成比例的压缩。对于较长的视频输入而言，这一问题更加严重。”针对这种复杂性，谷歌的 Mirasol3 B 模型将多模态建模分解为单独的重点自回归模型，根据模态的特性处理输入。

利好

利空

原文链接

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥9,423.61亿
2	欧易OKX	¥3,731.72亿
3	HTX	¥811.25亿
4	Coinbase	¥202.28亿
5	芝麻开门	¥2,879.79亿
6	Bitget	¥3,071.94亿
7	Bybit	¥2,931.37亿
8	双子星（Gemini）	¥18.85亿
9	Upbit	¥125.44亿
10	Crypto.com	¥607.29亿

排名	币种	成交额
1	wETH	¥4,241.89亿
2	泰达币	¥3,371.05亿
3	以太坊	¥1,374.27亿
4	比特币	¥1,344.11亿
5	USD Coin	¥661.06亿
6	Solana	¥458.04亿
7	瑞波币	¥363.97亿
8	First Digital USD	¥262.34亿
9	狗狗币	¥185.31亿
10	币安币	¥141.55亿