近日,美国著名人工智能研发机构OpenAI正式宣布,自本周二(2022年7月30日)起,面向部分ChatGPT Plus用户推出崭新的GPT-4o语音模式产品。
据OpenAI详细阐述,这款高级语音模式具备高度的实时性和互动性,支持用户随时随地打断对话过程,并且能够敏锐察觉并反应出用户的情绪变化。实际上,实时交互及对话中断两大技术难题一直是语音助手领域面临的挑战。
早在今年五月份,OpenAI便成功推出了全新升级版的大型语言模型GPT-4o,并同步展示了其语音模式的强大功能。原本计划在六月底逐步向广大用户开放此项服务,然而经过慎重考虑,OpenAI最终决定将其发布日期延至七月。预计在今年秋季,语音模式将全面覆盖到所有ChatGPT Plus用户群体中。
OpenAI在本周二明确指出:“我们采取逐步推广策略,以便能够密切关注用户的使用体验,并依据实际反馈持续提升模型的性能以及安全性。”此外,该公司还透露正在积极推进五月份发布会上展示的视频和屏幕分享功能的研发工作。至于这些功能的具体上线时间,目前尚无确切消息。
因此,在语音模式的初始阶段,其功能可能相对较为单一。举例来说,ChatGPT将暂时无法运用计算机视觉功能,这项技术可以使聊天机器人借助智能手机的摄像头,为用户的舞蹈动作提供语音反馈。
现阶段,GPT-4o语音模式已经配备了四种预设声音——Juniper、Breeze、Cove和Ember,这些声音均由经验丰富的付费配音演员精心打造而成。
值得一提的是,之前ChatGPT中的一位名为Sky的女性配音曾因与好莱坞巨星斯嘉丽·约翰逊的声线极为相似而备受争议。在接获约翰逊团队的律师函之后,OpenAI不得不暂停使用Sky语音。
此外,OpenAI还特别强调,他们已经引入了全新的过滤机制,旨在确保软件能够准确识别并拒绝任何试图生成受版权保护的音乐或其他音频内容的请求。对于AI企业而言,如何规避潜在的法律风险已然成为必须高度重视的问题。
全部0条评论
快来发表一下你的评论吧 !