谷歌市值冲上3万亿美元的同时,旗下的“杀手级”AI应用Gemini超越ChatGPT,成功登顶苹果应用榜第一名。
最新数据显示,在美区AppStore中,Gemini的下载量已超过ChatGPT,成为免费榜排名第一的应用。此外,在加拿大、印度、摩洛哥等国家,Gemini同样实现了登顶,打破了ChatGPT自发布以来长期的垄断地位。
这一成绩得益于谷歌推出的AI图像编辑产品Nano Banana。今年8月26日,谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,代号为“Nano Banana”。该模型在图像质量、编辑控制和应用场景上均有显著提升,推出后迅速获得用户青睐。9月4日,谷歌实验室副总裁Josh Woodward透露,自该功能上线以来,已完成超2亿次图像编辑,带动超1000万新用户尝试Gemini应用。
浙商证券研报指出,Nano Banana在以下技术层面实现突破:1)自然语言驱动图像编辑,用户可通过一句简单的自然语言指令完成精准编辑;2)角色一致性与场景融合,确保人物面貌在不同场景中保持统一;3)多图融合与世界知识注入,支持将多个图片在同一画面中融合;4)降低3D建模门槛,生成的2D设计图已包含结构、光影、材质等关键信息。
记者注意到,Nano Banana自上线以来,各大网络社区平台的用户纷纷分享其生成的图片。例如上传一张图片并提示“把我的宠物变成包装旁边的塑料玩偶”,即可生成一张高清的3D宠物手办图片。再比如,输入提示词“将我手中的物体变成3D透明线条艺术全息图”,Nano Banana也能准确理解并生成图像。
Nano Banana的火爆出圈,与数月前GPT-4o推出图像生成功能并引发“吉卜力”风格AI图片创作风潮类似。吉卜力风格是指日本吉卜力工作室创作的动画艺术风格,该工作室由宫崎骏与高畑勋于1985年创立,代表作包括《千与千寻》《龙猫》等。由于GPT-4o吉卜力风格图片过于火爆,OpenAI首席执行官山姆·奥特曼当时也换上了这一风格的头像,并称ChatGPT一小时新增百万用户,其活跃用户、App下载和订阅收入均创下历史纪录。
业内人士分析称,谷歌Nano Banana在全球走红,源于其在AI生图领域重构了用户体验范式,实现了从“复杂工具栏”到“一句自然语言”、从“渲染缓慢”到“秒级出图”、从“效果不稳定”到“跨图一致性”等一系列突破,大幅降低了使用门槛和成本。
受益于反垄断裁决结果好于市场预期以及Nano Banana的良好市场表现,谷歌股价近期持续上涨。周一(9月15日)早些时候,花旗集团分析师Ron Josey将谷歌母公司Alphabet目标价从225美元上调至280美元,理由是“随着Gemini在广告与云业务中的采用加速,正出现更快的产品开发周期”。
此外,Nano Banana的爆火再次点燃了图像生成视频赛道的战火。记者注意到,最近一段时间以来,国内大模型厂商也纷纷对标Nano Banana,推出了相应的图像生成模型。
例如,9月9日,字节跳动Seed团队宣布推出豆包图像创作模型Seedream 4.0。该模型可灵活支持文本、图像的组合输入,抽取不同图片元素进行创作,还可一次生成角色连贯、风格统一的组图,实现表情包、连环画等各类创意玩法。同日,AI创业公司生数科技正式推出Vidu Q1参考生图功能,正面对标Nano Banana,支持单次输入最多7张图像作为参考,可自由组合人物、背景与道具,生成细节精准、风格统一的高质量图像。
华泰证券认为,原生多模态模型架构得到业界认可,OpenAI和谷歌的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言,多模态为主的产品商业化快于文本产品,从大模型到多模态已是商业化的必由之路,多模态大模型和应用发展的奇点将至。
就投资层面来看,多模态有望在算力和应用两方面带来相关投资机会。算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领域均有AI化需求。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。