8月中旬,一个名为nano-banana的模型在 LMArena 平台的「Battle」中被发现,尽管没有任何官方开发者明确声称其归属,但很快,出于惊人的效果获得了病毒式的关注。甚至大量用户只为能被分配到该模型,而不断地参与平台模型盲测,相关图片也在社交平台上广泛传播。 乍一看效果非常好,Labubu的外形特征、搪胶材质都非常的逼真,甚至可以发朋友圈以假乱真。但仔细一看,数量却不对,桌面上只有六小只,缺失了一个绿色的玩偶。 接下来,我们又尝试了多张图片融合,据官方介绍能够保持人物的一致性,目前最多可支持三张图片合成,我们尝试了一下让甄嬛和安陵容来到现代都市,并且要求保持复杂的中国传统首饰不变形。 AI也基本完成了任务,在甄嬛的身体发生转动和变化的情况下,袖口的花纹和头饰基本没有变化,并为了完成Prompt中提到的couple(没错,我是甄嬛和安陵容CP粉),设计了一个在街头亲密自拍的动作。 这并不是一个简单的多图融合。此前生成模型的多图参考,是文本和图像两种跨模态输入的对齐,对prompt格式有要求,例如A + B + C +运动,图像主体尽量清晰,运动描述尽量直观简洁,还需要一定的抽卡概率。 这个多图融合的featuer,在匿名测试阶段就已经被电商用户疯狂夸赞了,我们接下来尝试了商品的替换,实测结果却轻微地翻车了。 虽然很想继续修改,但大量用户涌入后,由于“内部错误”,这个号称能速生图片的模型硬生生卡了几分钟,也无法完成更多任务了。 不过值得注意的是,官方提到得益于 Gemini 的先进推理,模型会有一定的理解和思维能力。尽管在符合现实逻辑上翻了车,但计算数学题却成功了。 8月中旬,这款模型以完全匿名身份出现在LMArena的对战模式中时,用户需要在不知来源的情况下,仅凭生成效果进行盲测投票,短短两周时间,凭借在“一致性”上的压倒性优势,“nano-banana”在盲测中持续胜出,迅速引起了全球AI核心用户和开发者的注意。 讨论从LMArena平台迅速扩散至Reddit、X (Twitter)、Discord等社区。用户自发进行极限测试、分享惊艳案例,并为其创造了“一致性之王”、“Photoshop杀手”等极具传播力的标签,甚至很多人会因为想要使用nano-banana模型,反复参与点评和测试,只为获得一次随机抽中banana的机会。 就在不少人还在猜测,模型是否会开源,什么时候正式发布的时候,谷歌工程师巧妙地在社交媒体发布""表情符号,将解谜游戏推向新高度。8月26日,在市场热度和口碑达到峰值时,谷歌正式宣布"nano-banana"即为Gemini 2.5 Flash Image模型,并开始全面推送。 很难说,这一路径并非谷歌有意为之。毕竟,早在8月初刚刚出圈,就有外媒报道,多位 AI 研究者和爱好者推测,nano-banana 可能是谷歌最新的图像生成模型,也有观察人士认为,可能来源于Qwen Image或来自各大实验室尚未发布的其他模型。 当然,这种“神秘发布”模式并非谷歌首创,从去年开始,不少模型们都会选择在LMArena上进行盲测,OpenAI此前也曾让神秘模型"im-also-a-good-gpt2-chatbot"现身竞技场,最终揭晓为GPT-4o测试版,预热了产品发布。 一方面,模型们选择LMArena,固然是因为在匿名的黑箱中,用户的选择完全是基于模型的实力,而排除了品牌的偏见和预期,为真实性能提供了纯粹的认证。 另一方面,在AI竞赛白热化的背景下,大厂的模型发布往往会被置于一种“追赶者or颠覆者”的叙事框架内,从而被严格审视甚至审判。 相比起传统的高举高打的发布模式,匿名发布再到官方认领的策略,完成一次“民选”模型的病毒式传播,既充分利用了社区自发传播的势能,又避免了过度炒作可能带来的反噬效应,使其性能优势在发布前就已成为“市场共识”。


