谷歌Gemini登顶应用榜，Nano Banana技术突破引热议- DoNews

谷歌市值冲上3万亿美元的同时，旗下的“杀手级”AI应用Gemini超越ChatGPT，成功登顶苹果应用榜第一名。

最新数据显示，在美区AppStore中，Gemini的下载量已超过ChatGPT，成为免费榜排名第一的应用。此外，在加拿大、印度、摩洛哥等国家，Gemini同样实现了登顶，打破了ChatGPT自发布以来长期的垄断地位。

这一成绩得益于谷歌推出的AI图像编辑产品Nano Banana。今年8月26日，谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image，代号为“Nano Banana”。该模型在图像质量、编辑控制和应用场景上均有显著提升，推出后迅速获得用户青睐。9月4日，谷歌实验室副总裁Josh Woodward透露，自该功能上线以来，已完成超2亿次图像编辑，带动超1000万新用户尝试Gemini应用。

浙商证券研报指出，Nano Banana在以下技术层面实现突破：1）自然语言驱动图像编辑，用户可通过一句简单的自然语言指令完成精准编辑；2）角色一致性与场景融合，确保人物面貌在不同场景中保持统一；3）多图融合与世界知识注入，支持将多个图片在同一画面中融合；4）降低3D建模门槛，生成的2D设计图已包含结构、光影、材质等关键信息。

记者注意到，Nano Banana自上线以来，各大网络社区平台的用户纷纷分享其生成的图片。例如上传一张图片并提示“把我的宠物变成包装旁边的塑料玩偶”，即可生成一张高清的3D宠物手办图片。再比如，输入提示词“将我手中的物体变成3D透明线条艺术全息图”，Nano Banana也能准确理解并生成图像。

Nano Banana的火爆出圈，与数月前GPT-4o推出图像生成功能并引发“吉卜力”风格AI图片创作风潮类似。吉卜力风格是指日本吉卜力工作室创作的动画艺术风格，该工作室由宫崎骏与高畑勋于1985年创立，代表作包括《千与千寻》《龙猫》等。由于GPT-4o吉卜力风格图片过于火爆，OpenAI首席执行官山姆·奥特曼当时也换上了这一风格的头像，并称ChatGPT一小时新增百万用户，其活跃用户、App下载和订阅收入均创下历史纪录。

业内人士分析称，谷歌Nano Banana在全球走红，源于其在AI生图领域重构了用户体验范式，实现了从“复杂工具栏”到“一句自然语言”、从“渲染缓慢”到“秒级出图”、从“效果不稳定”到“跨图一致性”等一系列突破，大幅降低了使用门槛和成本。

受益于反垄断裁决结果好于市场预期以及Nano Banana的良好市场表现，谷歌股价近期持续上涨。周一（9月15日）早些时候，花旗集团分析师Ron Josey将谷歌母公司Alphabet目标价从225美元上调至280美元，理由是“随着Gemini在广告与云业务中的采用加速，正出现更快的产品开发周期”。

此外，Nano Banana的爆火再次点燃了图像生成视频赛道的战火。记者注意到，最近一段时间以来，国内大模型厂商也纷纷对标Nano Banana，推出了相应的图像生成模型。

例如，9月9日，字节跳动Seed团队宣布推出豆包图像创作模型Seedream 4.0。该模型可灵活支持文本、图像的组合输入，抽取不同图片元素进行创作，还可一次生成角色连贯、风格统一的组图，实现表情包、连环画等各类创意玩法。同日，AI创业公司生数科技正式推出Vidu Q1参考生图功能，正面对标Nano Banana，支持单次输入最多7张图像作为参考，可自由组合人物、背景与道具，生成细节精准、风格统一的高质量图像。

华泰证券认为，原生多模态模型架构得到业界认可，OpenAI和谷歌的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言，多模态为主的产品商业化快于文本产品，从大模型到多模态已是商业化的必由之路，多模态大模型和应用发展的奇点将至。

就投资层面来看，多模态有望在算力和应用两方面带来相关投资机会。算力侧，供给端原生多模态模型需要比非原生模型更多的算力，需求端视频的推理算力需求远大于文字，视频Agent的落地进一步催生推理算力需求。应用侧，供给端国内的视频生成模型领先，需求端广告、零售、创作、教育等领域均有AI化需求。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。