OpenAI推出全新语音对话ChatGPT机器人
来源:量子号
近日,人工智能研究实验室OpenAI正式推出了新一代可对话的人工智能聊天机器人。这款先进的语音助手目前已面向部分用户开放,并计划在不久的将来全面上线。
新推出的聊天机器人被视为OpenAI向新一代人工智能语音助手迈进的重要一步。与现有的Siri和Alexa类似,但功能更为强大,能够实现更加自然、流畅的对话体验。这款基于ChatGPT技术的语音机器人不仅可以识别不同语调传达的情感,还能实时响应中断操作并回答问题。其语音输出经过优化,更贴近人类的声音表现,能传递多种情绪。
该语音功能由OpenAI最新的GPT-4o模型驱动,这一模型融合了语音、文本和视觉能力。为确保系统的稳定性与安全性,OpenAI首先向“一小部分”ChatGPT Plus付费用户推出了测试版本,预计在今年秋季扩展到所有订阅用户。ChatGPT Plus订阅费用为每月20美元(约合人民币144元)。届时,OpenAI将通过ChatGPT应用程序通知首批用户,并提供详细的使用说明。
据悉,这项语音功能最初于今年5月宣布,但由于需要额外时间改进安全特性而延迟了一个月上线。这些改进包括增强模型检测和拒绝不良内容的能力,以及为其基础设施升级以支持数百万用户的实时响应需求。
在发布前,OpenAI邀请了超过100名外部红队成员对GPT-4o的语音功能进行了广泛测试,这些测试人员来自29个国家,掌握45种语言。测试结果帮助OpenAI进一步完善了系统性能。
为了防止滥用技术生成音频深度伪造,OpenAI采取了多项措施,例如与专业配音演员合作创建了四种预设声音,同时明确表示GPT-4o不会模仿或生成任何特定人物的声音。
然而,在首次发布时,OpenAI曾因使用的“Sky”声音引发争议,因其被认为与女演员斯嘉丽·约翰逊的声音极为相似。尽管斯嘉丽本人拒绝授权,但模型演示中出现的雷同音色仍引发了公众的不满。对此,OpenAI迅速暂停了“Sky”声音的使用,并澄清该声音并非直接复制自斯嘉丽。
此外,OpenAI还面临多起涉嫌侵犯版权的法律诉讼。为此,公司开发了专门的过滤器,用以识别和阻止生成音乐或其他受版权保护内容的请求。OpenAI强调,其在基于文本的模型中应用的安全机制同样适用于GPT-4o,以防止生成违法或有害的内容。
未来,OpenAI计划为这一语音助手引入更多高级功能,例如视频支持和屏幕共享等。此前的一次演示中,工作人员通过手机摄像头拍摄纸上的数学方程式,并要求AI协助解答;同时,他们还通过共享电脑屏幕让AI解决编程问题。不过,这些功能暂未上线,具体发布时间尚未确定。