AI看片,Nano Banana最令人欣慰的能力,远不止于P图那么简单

广告位招租
扫码页面底部二维码联系
大概两周前,坊间爆料Nano Banana是google的新一代图像模型,在等待了大概两周后,google终于官宣,并上线了新的gemini flash版本,但可能Nano Banana这个名称实在太有意思了,google首次在正式产品中使用预览版的别称作为最终产品名,现在,在AI Studio中它以自己的原始名字作为模型选项。
Image
这几天,在Nano Banana已经成为公众号的热点词,我已经在公众号看到好多篇关于用Nano Banana来P图的玩法的文章了。但是,我今早突然意识到一个问题,为什么google发布的是gemini而非imagen的版本呢?是否意味着,这其实是一个多模态模型,而非一个生图模型?在有了这样的疑惑之后,我开始进行验证,用大模型的方式“你是一个xxx,你会基于用户的xxx,然后xxx”的公式,命令大模型进行推理,结果令人震撼。
接下来,我就将总结Nano Banana的一些常见玩法,以及非常见的令人不可思议的使用场景。以及,我将提供一个我自己开发的可免费使用nano的产品。
一、常见的图片处理场景
P照片
例如去除路人、瘦脸、白平衡处理、色调处理等等以前在手机上需要一个App才能完成的复杂照片处理,现在只需要用一个模型就可以解决。
Image
Image
图片风格转化
例如将照片转化为漫画风格、转化为表情包、变线稿等风格化处理也只需要一个模型就可以完成。
Image
图片转手办照
这是现在网上最流行的一个nano的应用场景,只需要提供一张图,就可以为你生成对应的手办照。
Image
多图融合
多图融合可以让AI帮你把多张图片融合在一起,这是很多其他功能的基础,比如试穿、室内装修等,都是提供一张主图和多张副图,让nano把它们融合在一起。而nano不负众望,几乎可以完美地完成这一任务。
Image
Image
照片修复
不用过多介绍了,在有一段时间火的一塌糊涂的照片修复,现在只需要一个模型解决。
Image
Image
上色或变色
为线稿上色。这个我深有体会,孩子在给线稿涂色的时候没有思路,我就拍了一张照给AI上色,让孩子看一下。
Image
动作引导
通过向nano提供一份人物动作的引导图,可以让原始图片中的人物按照引导图中的动作对齐。
Image
Image
电商图:试穿与解穿
电商场景下,试穿变得更加轻松。同时,还可以把衣服从模特身上脱下来展示。
Image
Image
Image
室内装修
Image
产品结构分析图
Image
配合视频生成模型,还可以将上面的图片作为首尾帧,实现产品拆解效果,这种只有以前的广告后期才能做,现在只需要两个模型搞定了。
剧情演变或补间分镜生成
Nano Banana可以基于给定的图片,提供基于该图的更多演变。(其实照片修复、瘦脸等本质上也是一样的。)
Image
Image
更猛的是,nano还可以基于你提供的图和描述,衍生出剧情。
Image
Image
Image
Image
也就是说,如果有耐心,完全可以用nano banana来实现一部漫画。并且,基于漫画和视频模型,生成一部动漫。想想都很可以。
好了,以上就是我们常见的一些nano的应用场景。当然,由于网友们的脑洞无限大,还有很多其他的场景在开发。
但是,现在还并没有结束。接下来,我才会带来更为令人震惊的nano banana的一些场景。
二、深度学习和研究的工具
正如我文章开头说的,gemini是一个推理模型,nano banana作为gemini的小版本,它的本质还是推理,只不过在推理的基础上,进一步优化了生图的能力,以前gemini生图类似于agent调用工具一样调用imagen来生图,而现在它已经隐藏了工具调用的特征,看上去就是gemini自己在生图。这也就意味着,gemini不仅可以理解图,还能用图给你讲解。
Image
Image
让gemini直接在原图中标注出你不懂的或者需要理解的部分。这使得我们(作为人)可以深度的学习和掌握以前不曾也不敢掌握的知识,例如造火箭、看病。
例如我们对植物感兴趣,在网上看到一朵很奇怪的花,不知道它的名字,那么你可以拍下来,让gemini辅助你学习。
Image
上面是我的一个例子,当我看到这个花的时候,觉得很奇怪,便让gemini为我解释。如果不是gemini生成的图片,我绝对理解不了“兜”的含义,因为原图的视角没有拍出兜来。
Image
此外,你有没有过这样的经历,你去医院拍片(x光片),然后回去找医生,医生随便一瞅,说“你得手术”,你拿过片,看半天看不懂。现在可以让gemini帮你看片了。
Image
Image
通过合理的提示词引导,让gemini理解x光片,并在原片基础上标注出病变的位置。这让我想到曾经有一位中国的极客创办了一个在线看片网站,受到世界卫生组织的关注,但仍然谢绝资助的感人故事。
https://github.com/JimmyLv/awesome-nano-banana
https://github.com/PicoTrex/Awesome-Nano-Banana-images
三、创业感悟和产品推荐
在过去一年里,我做了几个产品,和图像有关。包括我在内的很多做应用创业的朋友,都面临着巨大的痛苦。当我们有了一个不错的点子,吭呲吭呲做了小半年,产品上线了,也获得了一些关注,结果最后大厂的一次模型升级,就把我们的功能覆盖了。
这次nano banana出来之后,我在网上也听到了一些哀嚎,很多人投身在comfyUI的道路上,但是随着大模型的升级,一起要用复杂流水线才能完成的,现在只需要一段提示词就可以了。这对原本做comfy的人而言,真的是一次打击。
我也在不断反思,到底做什么样的产品,才不至于由于大厂模型的一次升级,就不再需要我们这样的产品了呢?现在很多做agent产品的创业团队,其实也是一样的。像openAI、google、微软这样的公司,直接在大模型层面就可以实现agent的能力,把工具封装起来,你都不知道它是在调用agent,例如写代码、做设计稿这些。
最后,我终于明白了一个道理。就像我们行业流行的一句话,“能用javascript实现的,一定会被javascript实现”,这个背后的墨菲定律告诉我们一个道理,只要我们现在能想到的,无论看上去多么离谱,它都有可能实现。所以,“能用AI完成的,一定会被AI完成”不是一句玩笑。既然AI都能做我们能做的事情了,我们还有什么意义呢?
我觉得,我们的意义就在于“做自己感兴趣的事”。就像这个世界上,有亿万富豪在忙着造火箭,也不妨碍我们在感兴趣的捏泥巴这件事上继续捏泥巴,然后把捏泥巴的过程做成短视频发到网上逗大家开心。我们做自己感兴趣的事,并不是要获得来自谁的认可,而是我们自己感兴趣,即便这个事情已经在别人来看不屑一顾的境地。
我最近更新了很久以前发布的Visor(https://visor.fuuai.com),这是一个AI作画的画布工具,你现在(直到无法使用)可以在它上面免费使用Nano Banana。之所以推荐用它来使用nano banana,是因为在某些场景下,AI并不能直接理解图片中物品的尺寸大小,从而在生图时让物品呈现出错误的尺寸。而画布,则可以让你在一个界面内,按照实物比例和角度来合成草稿图像。一图胜千言:
Image
我想让这位模特穿上这双靴子,但是由于AI无法准确得到这双靴子的实际尺寸,在生成时就有可能显得太肥或太瘦,通过在图片中合理安排靴子尺寸和模特的比例,就可以让AI准确理解其尺寸大小。
Image
同样,这种室内装修的生图,也需要把多个物品按照实际尺寸和位置进行放置。然后让AI生成效果图。
Image
另外,还有一种场景:
Image
这是一张手绘的草图,作者用文字、箭头标识了让AI用来生成新图时的细节提示。也就是说,直接将提示指令写在了图片里面。最后可以得到:
Image
当我们需要在图片中进行提示词标注时,普通的工具做不到,而Visor则可以,因为它是一块画布,你可以在画布上添加文字和箭头来进行标识。
Image
这样,用户就可以更加自由地进行创作,而无需使用专业的工具。
最后,你还遇到过或者认为可以利用Nano Banana的应用场景呢?欢迎在下方留言区评论哦。