俺去也小说 “吉卜力风”免费版来了！豆包这款AI生图神器，不比GPT弱？

最近两周俺去也小说，"吉卜力画风"瞬息就火了。

事情的开动是这么的，3 月 26 日，OpenAI 推出了基于 GPT-4o 多模态大模子的高精度图像生告捷能" 4o Image Generation "，按照他们的说法，当前用户只需一句苟简的翰墨刻画，就能竣事精细的告白或平面图的制作、行使界面的 UI 规画、LOGO 或图片作风的切换等等。

二对一

末端呢？扫数这个词互联网的东说念主，都在用它变身"赛博宫崎骏"。

不开打趣，小雷是真被这玩意给刷屏了，这两天一打开群聊，就能看到天高皇帝远的群友们在拿 GPT-4o 荒诞整活，有作念头像的，有作念心计包的，以至还有把"黄 O 通衢东"造成吉卜力画风的，推特上的海外网友玩得更是乐此不疲，看得我都有点心痒痒的。

（图源：X）

幸而，雷同的功能，国内大模子并不是莫得。

比如说字节越过的 SeedEdit，通常可以竣事"天然语意修图"，用户只需输入苟简的天然话语，便可对图像进行千般化剪辑操作。

最遑急的是，这功能可不需要你想方设法翻出去用，在字节越过的豆包官网就平直能用，况兼当前豆包的"图像生成"功能是全都免费且不存在限制的，这一波以至能把开会员的钱也给平直省下来。

话不说多，咱们这边平直开整！

想体验这个功能的话，其实还蛮苟简的便是了。

打开豆包网页版，在输入框底下就有「图片生成」，应该就能看到上传参考图的选项了，这里便是 SeedEdit 模子的进口。

要作念的事情很苟简，上传图片，然后输入咱们想要窜改的实际。

（图源：雷科技）

话未几说，先来看图。

当先，小雷这边采选了一张来自着名音乐摄像带里的截图，让豆包和最近巨火的 GPT-4o 都试着"帮我换成吉卜力作风"。

这是原图：

（图源：Youtube）

这是豆包的制品：

（图源：豆包）

这是 GPT-4o 的制品：

（图源：GPT）

对比下来，GPT-4o 的衣着收复度更高，手部莫得变形，仅仅莫得看护原图比例；豆包固然全体构图、配色愈加逼近原图，但是衣着有些微变化，手部有些变形，以至多了一只握着麦克风的手。

接着试一下大家都护理的名东说念主俺去也小说，比如说马斯克：

譬如说乔布斯：

再给乔布斯换个迪士尼作风：

从末端来看，豆包的解救后果可以说短长常熟谙。

临了，咱们试一试影视剧集里的名形势，此次就拿《和平使臣》内部约翰 · 塞纳演出的克里斯多福 · 史小姐的名形势作念例子：

（原图，图源：HBO Max）

此次差距其实愈加明白一些，GPT-4o 以至把金属头盔保留了下来，身边的两名脚色也作念到了精确的画风转制，但是图片比例有所修改，翰墨信息也莫得保留住来。

动作对比，豆包则是试图在整幅画面上进行对都，关联词东说念主数一多起来，脚色的服装和面孔就没若干能对上的。

但是，接着我就要说但是了，豆包的后果照旧比 Gemini 2.0 要强上一大截的，谷歌这玩意固然援手天然语意修图，但是既不懂吉卜力作风是啥敬爱敬爱，也搞不明晰若何修改图片比例。

（图源：Gemini 2.0）

可恶的谷歌，不要给我看这一堆不知所谓的东西！

其实把想路反过来，把画改成真确作风，豆包搞得也可以，我上传了一张刻在不少东说念主基因里的 Meme 图片，让它以此为原型，生成一张真确像片。

嗯 ... 只可说像是挺像的，便是没了那种冲击感。

要是再苟简解救一下的话，就能作念出底下这种后果：

虽说脸型有点不合，笑得亦然有点顽皮，但是这种逼迫次元壁的作念法，还真就唯有 AI 大模子能够竣事。

不外，东说念主东说念主都在用吉卜力画风，也带来了新一轮的版权问题。

毕竟早在 2016 年，宫崎骏评价 AI 动画本领时就直言：这是对人命自身的侮辱。

宫崎骏反对用本领代替手工创作，他以为 AI 生成图像缺少对人命力的敬畏，而在 2025 年的今天，本领力的进步，反而让大家对这件事情变得更堂堂皇皇了起来，如实是有点讽刺的。

既然如斯，咱们不妨解救一下想路，把它当成 PS 来用？

比如在规画行业里源源而来的梗，"让大象转个身"这种要求，咱们在豆包上能不成竣事呢？

谜底是"全都可以，恣意可以"。

可以看到，SeedEdit 生成的大象后面短长常顺应逻辑的，耳朵的体式、脚部的位置、体魄的心计都作念得止境可以，周围的环境也保持了高度的一致，很出丑出画面上有什么缝隙。

不外雷同海报的后果，豆包就作念得不咋样了，和 GPT-4o 可以说一眼就能看出分别了。

只可说，豆包在审好意思这块，还真有挺多要学的地方。

临了，我也试了一下豆包造谣进行"图片生成"的后果。

请示词如下：

一位年青的印度女性，黑发扎着打开的马尾辫，身穿玄色夹克，站在大学校园里，直视着镜头。该图像具有 1990 年代作风的电影静态好意思学，在阳光明媚的日子里拍下的特写肖像。

对比豆包，GPT-4o 产出的图更有特写感；Midjourney V7 产出的图片色泽愈加天然，东说念主物脸部的肤色也相对愈加通晓，细节愈加丰富，画面焦点愈加通晓，但总的来说，三者都没啥肉眼可见的问题。

不可否定，如今 AI 大模子在"绘画"上足以孤苦自主了。

但是在图像剪辑限制，AI 大模子依然是相对落伍的，无法进行精确剪辑一直是行业的老浩劫问题。

前些年，这类需求一般可以通过 Stable Diffusion 的 ControlNet 插件来竣事。

它可以得到颠倒的输入图像，通过不同的预管束器解救为限度图，进而动作 Stable Diffusion 扩散的颠倒要求，只需使用文本请示词，就可以在保持图像主体特征的前提下随便修改图像细节。

（图源：新浪微博，识别特征并进行重新绘图）

关联词腹地部署 AI 行使这事，和大部分小白是基本无缘的。

是以在干涉本年后，包括 GPT-4o、Gemini 2、Midjourney V7 等先后上线了通过天然语意修图的功能。

个东说念主以为，这种只需给定输入图像和告诉模子要作念什么的文本刻画，然后模子就能除名刻画指示来剪辑图像的功能，以至可以被视为紧要突破，也曾被视为必备手段的 PS，如今似乎堕入了"可学可不学"的诡秘处境。

天然了，当前这类模子在生成图片时照旧有一些问题存在的。

直到今天，豆包 AI 修图依然缺少东说念主像前后的一致性，也缺少图片实际的地点性，只须波及到东说念主物面部的修图，那么最终出来的图像和原图的相反会很夸张，豆包自身也很难判断你要修改的是图片里的哪个元素。

倒是翰墨管束才能，相较以往有了一定进步，当前 SeedEdit 在修图时如故不会恣意编造翰墨实际，但是图片生成时的错字适意依然需要改善。

不管若何说，豆包 SeedEdit 算是弥补了国产大模子在语义 AI 修图行使这块的空缺。

可以猜度的是，跟着 AI 图像剪辑本领的不断发展，将来手机、电脑都可能会集成这项功能，就像 AI 摒除、AI 扩图那样走进寻常庶民家。无论是小白照旧大咖，每个东说念主都有契机削弱上手使用，让我方对好意思的理会可以更直不雅地展现出来。

修图有手就行？省略的确不是梦俺去也小说。