谷歌推出 BIG-Bench Mistake 数据集，可协助 AI 语言模型改善自我纠错能力

来源: 巴比特615天前

据 IT 之家 1 月 15 日报道，谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集，并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。谷歌研究人员表示，由于过去没有能够评估大语言模型“出错概率”及“自我纠错能力”的数据集，因此他们创建了一项名为“BIG-Bench Mistake”的专用基准数据集用于评估测试。据悉，研究人员首先使用 PaLM 语言模型在自家 BIG-Bench 基准测试任务中运行了 5 项任务，之后将生成的“思维链（Chain-of-Thought）”轨迹修改加入“逻辑错误”部分，之后重新丢给模型判断思维链轨迹中哪些地方存在错误。谷歌研究人员声称，这一 BIG-Bench Mistake 数据集有利于改善模型自我纠错能力，经过相关测试任务微调后的模型，“即便是小型模型表现也通常比零样本提示的大模型更好”。

利好

利空

原文链接

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥4,132.86亿
2	欧易OKX	¥1,090.62亿
3	HTX	¥240.04亿
4	Coinbase	¥62.61亿
5	大门	¥884.81亿
6	Bitget	¥794.71亿
7	Bybit	¥1,192.31亿
8	双子星（Gemini）	¥5.30亿
9	Upbit	¥49.97亿
10	Crypto.com	¥95.68亿

排名	币种	成交额
1	泰达币	¥1,909.19亿
2	比特币	¥561.33亿
3	以太坊	¥518.59亿
4	USD Coin	¥323.79亿
5	币安币	¥279.96亿
6	First Digital USD	¥214.16亿
7	Solana	¥204.39亿
8	Avantis	¥198.21亿
9	瑞波币	¥157.47亿
10	狗狗币	¥124.86亿