Openai推出GPT-4o

openai · 2024 年7 月 22 日 05:57

Openai宣布推出GPT-4o，这是我们的新旗舰机型，可以实时跨音频、视觉和文本进行推理。
GPT-4o（“o”代表“omni”）是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入，并生成文本、音频和图像输出的任何组合。它可以在短短232毫秒内对音频输入做出响应，平均为320毫秒，这与对话中人类的响应时间（在新窗口中打开）相似。它在英语文本和代码方面与GPT-4 Turbo的性能相匹配，在非英语语言文本方面有显著改进，同时在API中速度更快，价格便宜50%。与现有型号相比，GPT-4o在视觉和音频理解方面尤其出色。

openai · 2024 年7 月 22 日 06:04

在GPT-4o之前，可以使用语音模式与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，Voice Mode是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着智能的主要来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌声或表达情感。

openai · 2024 年7 月 22 日 06:05

使用GPT-4o，在文本、视觉和音频上端到端地训练了一个新的模型，这意味着所有的输入和输出都由同一个神经网络处理。因为GPT-4o是第一个结合所有这些模态的模型，所以只是触及了探索该模型能做什么及其局限性的表面。