Openai推出GPT-4o

Openai宣布推出GPT-4o,这是我们的新旗舰机型,可以实时跨音频、视觉和文本进行推理。
GPT-4o(“o”代表“omni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入,并生成文本、音频和图像输出的任何组合。它可以在短短232毫秒内对音频输入做出响应,平均为320毫秒,这与对话中人类的响应时间(在新窗口中打开)相似。它在英语文本和代码方面与GPT-4 Turbo的性能相匹配,在非英语语言文本方面有显著改进,同时在API中速度更快,价格便宜50%。与现有型号相比,GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前,可以使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,Voice Mode是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着智能的主要来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

使用GPT-4o,在文本、视觉和音频上端到端地训练了一个新的模型,这意味着所有的输入和输出都由同一个神经网络处理。因为GPT-4o是第一个结合所有这些模态的模型,所以只是触及了探索该模型能做什么及其局限性的表面。