字节跳动与中科大联合提出多模态文档大模型 DocPedia

来源: 巴比特609天前
据站长之家 12 月 4 日报道,字节跳动与中国科学技术大学合作研发的多模态文档大模型 DocPedia 已成功突破了分辨率的极限,达到了 2560×2560 的高分辨率,而目前业内先进多模态大模型如 LLaVA、MiniGPT-4 等处理图像分辨率上限为 336×336,无法解析高分辨率的文档图像。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。 据称,DocPedia 不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现高分辨率多模态文档理解的能力。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,001.53亿
2 欧易OKX欧易OKX ¥2,384.90亿
3 HTXHTX ¥449.74亿
4 CoinbaseCoinbase ¥131.62亿
5 芝麻开门芝麻开门 ¥1,741.73亿
6 BitgetBitget ¥1,833.29亿
7 BybitBybit ¥1,992.83亿
8 双子星(Gemini)双子星(Gemini) ¥17.43亿
9 UpbitUpbit ¥99.53亿
10 Crypto.comCrypto.com ¥362.93亿