OpenAI开源HealthBench,60个国家合力开发5000段真实对话

来源: 金色财经2天前
,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。根据测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,233.46亿
2 欧易OKX欧易OKX ¥2,659.57亿
3 HTXHTX ¥458.68亿
4 CoinbaseCoinbase ¥162.76亿
5 芝麻开门芝麻开门 ¥298.41亿
6 BitgetBitget ¥1,823.65亿
7 BybitBybit ¥2,013.42亿
8 Crypto.comCrypto.com ¥336.14亿
9 BitfinexBitfinex ¥14.33亿
10 抹茶抹茶 ¥1,868.47亿