OpenAI 新旗舰模型GPT-4o发布-广东锋范科技有限公司

OpenAI 新旗舰模型GPT-4o发布

2024.05.14

2024年当地时间5月13日，OpenAI推出新旗舰模型GPT-4o，可以实时对音频、视觉和文本进行推理。

据介绍，新版模型能够带着情感与用户对话，还能假装兴奋、友好，甚至讽刺，其响应时间最短也来到了232毫秒，这与人类在对话中的响应时间相似。

GPT-4o的“o”代表“omni”，该词意为“全能”，源自拉丁语“omnis”。在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。

发布会当天，OpenAI公司首席技术官米拉·穆拉蒂介绍称，GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

据了解，在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。“它对人类的情绪、语气理解得十分自然精准，如同与一个真正的人类朋友或助理在聊天。”

在另一个演示场景下，工作人员手写了一个方程，并打开摄像头拍给ChatGPT，让它扮演“在线导师”的角色帮助自己解题，而且只能给提示，不能直接说答案，此后，ChatGPT一步一步说出了解题步骤。

值得一提的是，手机版的GPT-4o不仅可以通过语音能力理解你当前的状态，还能通过视觉识别你所处的环境和你正在做的事情，并对它作出反应。“帮你解数学题，没问题，解完还能陪你聊聊人生。”

据商业内幕报道，它还能够带着情感说话，可以假装兴奋、友好，甚至讽刺。

OpenAI首席执行官山姆·奥特曼表示，新的语音和视频模式是他用过的最好的电脑界面，感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说，与电脑交谈从来都不是一件很自然的事，现在它做到了。随着我们增加（可选的）个性化、访问你的信息、代表你采取行动的能力等等，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往任何时候都多的事情。”

Previous article：微软 Build 2024开发者大会

Previous article：Meta 大模型Llama 3 发布

Return to List

Related information