研究人员推出全新视觉提示方法 SoM,可让 GPT-4V 看的更准、分的更细

来源: 巴比特610天前
据站长之家 10 月 23 日报道,研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在细粒度视觉任务上有更好的表现。GPT-4V 是一种基于 GPT-4 的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4 V 的生成能力来产生文本之外的输出,如掩码或框。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥5,532.53亿
2 欧易OKX欧易OKX ¥2,285.19亿
3 HTXHTX ¥429.65亿
4 CoinbaseCoinbase ¥116.44亿
5 芝麻开门芝麻开门 ¥1,547.82亿
6 BitgetBitget ¥1,611.82亿
7 BybitBybit ¥1,829.56亿
8 Crypto.comCrypto.com ¥325.24亿
9 BitfinexBitfinex ¥10.05亿
10 抹茶抹茶 ¥1,672.90亿