OpenAI开源HealthBench,60个国家合力开发5000段真实对话
来源: 金色财经152天前
,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。根据测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。
热门新闻
- 1美联储2025年降息对非必需消费品与科技股的深远影响
- 212.5万美元一枚!比特币只想掀掉一切天花板
- 3比特币引领加密货币市场:4.35万亿美元市值背后的战略配置与宏观经济驱动
- 4币安人生上线币安Alpha,三天市值突破1.5亿美元的背后
- 5比特币有望在2025年第四季度突破15万美元:宏观经济与机构采用共同推动
- 6比特币今日新闻:飙升至历史高点,对冲美元贬值与政策波动成焦点
- 7OpenAI将ChatGPT重塑为多功能应用平台,推出App SDK与AgentKit
- 8SEC新规加速Solana与XRP ETF审批,75天时间框架点燃市场期待
- 9「币安人生」暴涨背后的流量密码:CZ与何一的推波助澜
交易平台最新公告查看更多>
成交额排行榜
- 交易所
- 币种
排名 | 交易所 | 成交额 |
---|---|---|
1 | ![]() |
¥1.31万亿 |
2 | ![]() |
¥4,610.81亿 |
3 | ![]() |
¥970.11亿 |
4 | ![]() |
¥357.95亿 |
5 | ![]() |
¥3,001.70亿 |
6 | ![]() |
¥3,169.08亿 |
7 | ![]() |
¥3,890.99亿 |
8 | ![]() |
¥16.41亿 |
9 | ![]() |
¥294.84亿 |
10 | ![]() |
¥795.33亿 |