@不知名锦鲤阿凡提:GPT 4o 的变化:
1)强调实时性、多模态的模型,可以和多人同时快速语音交互,免费提供,未来几周上线。
把 GPT-4 级别的智能带给了 OpenAI 的每一位用户。无论是付费用户,还是免费用户,都能通过 GPT-4o 体验 GPT-4。
此外,GPT-4o 不仅提供与 GPT-4 同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。
2)越来越像真人的个人助手了,在 ai 客服、ai 终端领域有很大的应用潜力。参考电影《her》
研发负责人 Mark Chenz 最先展示的是关键功能之一 —— 实时语音对话。
他向 ChatGPT 问道:‘’我正在台上,给大家做现场演示。我有点紧张,我该怎么办?‘’
ChatGPT 善解人意地表示:‘’你是在台上做演示吗,那真的太棒了!深呼吸吧,记得你是个专家!‘’
Mark 故意疯狂地喘气,并问 ChatGPT 能给自己什么建议吗。
它惊讶地说道:‘’放松点,Mark,慢点呼吸,你可不是个吸尘器!‘’
3)这条路径不是硬件下沉端侧,而是云端赋能端侧,相比之前的方案更快、成本更低。
在 GPT-4o 发布之前,通过语音模式(Voice Mode)与 ChatGPT 对话,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),体验非常不自然。但现在,GPT-4o 能以平均 320 毫秒,做出响应。