OpenAI 发布了 GPT-4o,更快、更强、更综合、更接近 AIGC,对所有 ChatGPT 用户免费

一、直播总结

../../_resources/202405140950.png

刚刚结束的 OpenAI 春季更新直播发布会,OpenAI:

  • 推出了最新、更快、更综合的AI大模型:GPT-4o,这是 GPT-4 模型的迭代版本。并有跨文本、语音和视觉的功能
  • 所用用户可以免费使用GPT-4o,并且可以体验
    • 体验GPT-4级智能(免费用GPT-4)
    • 超级丝滑的语音聊天对话体验(文本、语音、图像、视频综合能力)
    • 从模型和网络获取响应(可以联网)
    • 分析数据并创建图表 (数据分析)
    • 聊聊你拍摄的照片(图像识别)
    • 上传文件以帮助总结、写作或分析(文档识别与分析)
    • 发现并使用 GPT 和 GPT 商店(免费使用GPTS)
    • 使用 Memory 打造更有帮助的体验(带有记忆功能)

GPT-4o的“o”代表“omni”。该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。

二、功能展示

原博客链接: https://openai.com/index/hello-gpt-4o/
推特链接: https://twitter.com/OpenAI/status/1790072174117613963 (推文下面有许多视频演示例子)

GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:
(10.590, -0.45, -4.08%)能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。

../../_resources/202405140822.png

超级丝滑,逼真的对话

../../_resources/202405140869.png

穆拉蒂补充说,它将对所有用户免费,付费用户将继续“拥有免费用户五倍的容量限制”。

OpenAI 在该公司的一篇博客文章中表示,GPT-4o 的功能“将迭代推出”,但其文本和图像功能将于今天开始在 ChatGPT 中推出。

OpenAI 首席执行官 Sam Altman 表示,该模型是“原生多模式”,这意味着该模型可以生成内容或理解语音、文本或图像中的命令。 Altman 在 X 上补充道,想要修补 GPT-4o 的开发人员将可以访问该 API,其价格是 GPT-4 Turbo 的一半,速度是 GPT-4 Turbo 的两倍。

作为新模型的一部分,ChatGPT 的语音模式即将推出新功能。该应用程序将能够充当像 Her 一样的语音助手,实时响应并观察你周围的世界。当前的语音模式更加有限,一次只能响应一个提示,并且只能处理它能听到的内容。


这里有趣的是,明天Google也将在同一时间召开发布会:

https://x.com/Google/status/1788980289412252013

../../_resources/202405140963.png


OpenAI 发布了 GPT-4o,更快、更强、更综合、更接近 AIGC,对所有 ChatGPT 用户免费
https://blog.pppfz.com/posts/23.html
作者
PPPFZ
发布于
2024年5月14日
许可协议