GPT-4o:免费的混合输入和混合输出大模型

作者：neo yang 时间：2024/05/15 读： 13137

GPT-4o的发布标志着混合输入输出大模型的新里程碑，对话更丰富、速度更快。其免费使用和降低的API费用使更多人能够接触到这项技术。相较于Gemini1.5 Pro，GPT-4o在对话体验方面更胜一筹，推动了机器人和AIGC应用的发展。这一进步代表着生成式AI领域的重要发展，为人机交互和内容生成等领域带来了新的可能性。

概述

GPT-4 “o”了。

GPT-4o发布了。

你可以通过语音和它对话，可以让它给你唱歌了。

GPT-4o的特点和优势

混合输入和混合输出

混合输入，就是你可以同时输入文字、图像、语音、视频等

混合输出，就是GPT-4o可以同时输出文字、图像、语音、视频等。

这样一来，输入和输出更加丰富，更加人性化。

速度更快

GPT-4o的速度比GPT-4 Turbo快了不少，几乎和人类的反应速度差不多了。

以上两点，使得和GPT-4o的对话，和真人对话很相似。

GPT-4o的价格

GPT-4o可以免费使用。

它的API使用费也比之前降低了一半。

GPT-4o VS Gmini1.5 Pro

同样是混合输入和混合输出的大模型Gemini1.5 Pro，发布时间要早于GPT-4o，技术和各方面的性能其实和GPT-4o相差无几。

然而，在对话的体验方面，Gemini1.5 Pro要明显的比GPT-4o差一些。

其实，这也是情理之中的，毕竟使用GPT的用户比使用Gemini的用户多太多了，这就导致GPT每天的对话量远远大于Gemini，时间一长，自然就会有差距。

当然，如果只是生成内容，那其实这种差距就不会有那么明显了。

GPT-4o的应用场景

机器人

GPT等大模型的出现，直接推动了机器人产业的发展。

GPT-4o将对话体验做到了和真人几乎一样，那么必将让机器人产业有新的发展。

AIGC应用

GPT-4o给各种AIGC应用提供了一个好的接口，有很多同时会生成文本、图片、语音等混合内容AIGC应用可能会大量出现。

结论

GPT-4o和Gemini1.5 Pro这样的混合输入和混合输出的大模型的出现，对于生成式AI来说是一次大的进步。

参考

https://openai.com/index/hello-gpt-4o/

标签：AIGC

关注我的微信公众号