XM官网 - 在线交易平台|XM官方网站注册入口推荐地址

一手体验：最新发布的GPT-4o多模态生图，就是当今的王(2025年03月26日)

XM 2025-03-26

今天日子是2025年3月26日。

OpenAI又是临时发了一个直播预告。

凌晨2点要发东西。

我：？？？？？？？？？？

当熬到2点看完了直播以后，我人都恍惚了，我怎么好像去年5月的时候，见过这个东西？怎么感觉特娘的我时间穿越回到1年前了？

翻了一下，果然……

2024年5月13号，GPT4o正式发布，那时候的blog里面，就说了GPT4o是一个原生多模态模型，不仅支持端到端的语音输入输出，其实也支持图片的端到端输入输出。

只不过，这一鸽，就鸽了一年，鸽得我都快忘了GPT4o原来也支持图片输出的……

感觉是Gemini的原生多模态用嘴改图给OpenAI逼急了，没办法，只能临时加塞把这玩意掏出来。

OpenAI的发布节奏，真的已经越来越不对劲了。

但是回到4o生图这个产品能力本身。

虽然说节奏稀碎，可OpenAI一年后掏出的这个产品，质量直接拉到顶，就跟DeepResearch把google的按在地上摩擦一样。

大家虽然都是原生多模态，都可以用嘴改图，但是GPT4o的绘图质量，就是可以把Gemini按在地上摩擦，就是当今的王，太牛了。

作为200刀的pro会员，我也在第一时间，就拿到了体验资格。

目前，有两个渠道可以使用4o Image Generation 。

一个事ChatGPT，一个是单独的那个Sora的网站。

在ChatGPT上，当你画图的选项变成这个的时候，就说明用的不是Dalle3了，而是4o。

你就直接可以用嘴画图。

也可以，直接用嘴改图。

但是在ChatGPT上用，有一个问题就是，即使我作为200刀的Pro会员，他居然也限我流，才生成十几张，就给我限了，让我7分钟以后再用。

而在Sora上用的话，有个好处，就是速度极快，一次性可以跑4张，而且还无限用。

质量顶到飞起。

你可以把这个位置，改成image就OK了。

但是最大的问题，就是生成完以后的图片，不能进行多轮对话修改了。

现在ChatGPT和Sora的关系，越来越像豆包和即梦的关系了。

我从2点，跑图跑到4点，坦率地讲，我对4o的生图质量，是非常震惊的。

比我想象的还要好。

用过Gemini的就知道，虽然可以实现多模态改图，但是那个生图的质量，丑的不忍直视，能用，但是到不了生产力级别。

但是，4o可以。

我直接放一下我跑的纯生图case，改图的case放后面。

先看生图。

Prompt：冰霜巨龙盘踞在雪峰上，周身冰晶闪耀，龙息喷出寒气，背景狂风席卷雪花。

Prompt：山姆奥特曼在摘棉花。

Prompt：制作一张漫画风格的生日卡，上面写着“我希望你今天像动漫开场中的超新星一样闪耀！"

Prompt：创建一个多步骤表单用户界面设计的图像，简约一点，好看一点。

Prompt：创建一个索隆的女孩版动漫角色。

Prompt：创建一个包含所有元素的周期表卡通图像。确保每个元素框都标有元素的全名（如氦或氢）。在每个元素的框中，包含一个代表该元素的卡通图像。同时也包括一些完全随机的物品，而不是实际的元素，仿佛是在幻觉中看到周期表的成员。

Prompt：做一个用火龙果的外皮做的蜥蜴，照片必须逼真，整个鳞片都要是火龙果。

Prompt：一张坦率的狗仔风格照片，卡尔·马克思匆忙走过美国购物中心的停车场，回头用惊讶的表情看着，试图避免被拍照。他手里抓着多个装满奢侈品的光滑购物袋。他的外套在风中飘动，其中一个袋子在他迈步时摇摆。模糊的背景中有汽车和发光的购物中心入口，以强调运动。相机的闪光灯部分过曝了图像，给人一种混乱的小报感觉。

Prompt：画一个包含机器人运动学和动力学详细信息的海报。

Prompt：描绘一只对冒烟的计算机服务器机架感到困惑的水豚。

Prompt：一只猫用粉笔在街上写下“我是一只猫”的图片。

我还有太多太多太多跑出来的图想放给大家看了。

受限于篇幅，我只能放这么多，我推荐你们每一个人，都去试试。

诚然，4o当然还有很多小问题，比如手指细节可能有问题，比如海报里的公式都是错的，比如上面的元素周期表很多是不对的，比如你让他画中文有时候会干出英文或者日文等等。

但是，但是，这个质量，这个自由度，这个语义理解。

让我可以在这个阶段，无视他的所有那些细小的瑕疵。

我已经很久没有跑图跑得兴奋了，跑图跑得不想睡觉，这样的感觉，还在两年前，第一次看到Midjourney v5更新的时候。

太酷了。

当然，你并不是只可以文生图，当然也可以，图生图。

如今，你再也不需要什么SD、什么Comfyui、什么ControlNET插件，你就可以实现很多很多效果。