OpenAI 新旗舰模型GPT-4o发布

2024.05.14

2024年当地时间5月13日,OpenAI推出新旗舰模型GPT-4o,可以实时对音频、视觉和文本进行推理。

据介绍,新版模型能够带着情感与用户对话,还能假装兴奋、友好,甚至讽刺,其响应时间最短也来到了232毫秒,这与人类在对话中的响应时间相似。

GPT-4o的“o”代表“omni”,该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。

发布会当天,OpenAI公司首席技术官米拉·穆拉蒂介绍称,GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”

据了解,在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。“它对人类的情绪、语气理解得十分自然精准,如同与一个真正的人类朋友或助理在聊天。”

在另一个演示场景下,工作人员手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案,此后,ChatGPT一步一步说出了解题步骤。

值得一提的是,手机版的GPT-4o不仅可以通过语音能力理解你当前的状态,还能通过视觉识别你所处的环境和你正在做的事情,并对它作出反应。“帮你解数学题,没问题,解完还能陪你聊聊人生。”

据商业内幕报道,它还能够带着情感说话,可以假装兴奋、友好,甚至讽刺。

OpenAI首席执行官山姆·奥特曼表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说,与电脑交谈从来都不是一件很自然的事,现在它做到了。随着我们增加(可选的)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”