谷歌推出 Gemini 2.5 Flash Image,增强图像处理能力以应对 ChatGPT 竞争

4 小时前 9 技术
摘要
Google 的全新 Gemini 2.5 Flash Image 工具可让用户合并照片、使用文本提示编辑细节并保持视觉准确性 。
币币情报道:

谷歌于本周二发布了 Gemini 2.5 Flash Image,这是一种全新的人工智能模型,能够比以往工具更精确、更一致地生成和编辑图像,旨在缩小与 OpenAI 的 ChatGPT 之间的差距。

这家科技巨头正致力于将先进的图像编辑技术整合到 Gemini 平台中,这体现了人工智能领域正在推动将图像生成功能作为核心必备功能的趋势。这款新工具现已在 Gemini 应用和平台上线,用户可以使用自然语言来编辑视觉效果,并完成诸如姿势变化或多图像融合等复杂任务,同时避免面部或场景的扭曲。

在一篇博客文章中,谷歌表示,该模型允许用户“将同一个角色置于不同的环境中,从多个角度展示单个产品……同时保留主题一致性。”

该模型最初以“nano-banana”的化名出现在众包测试网站 LMArena 上,因其无缝编辑功能而备受关注。谷歌于周二证实,这款工具正是其开发者所打造。

谷歌表示,该系统可以融合多幅图像,保持故事叙述或品牌推广中的角色一致性,并整合“世界知识”来解释图表或组合参考资料——所有这些都可以在一个提示中完成。

该模型在谷歌云上的售价为每百万个输出令牌 30 美元,约合每张图片 4 美分。它也通过 OpenRouter 和 fal.ai 进行分发。

OpenAI 于 2024 年 5 月推出了 GPT-4o 模型,并在 2025年3月 实现了 ChatGPT 周活跃用户数突破 7 亿。相比之下,谷歌报告称,截至 2025 年 8 月,Gemini 的月活跃用户数将达到 4 亿,这意味着其周活跃用户数仍大幅落后于 OpenAI。

谷歌还表示,所有输出都将包含一个不可见的 SynthID 水印和元数据标签,以将其标记为 AI 生成内容,从而解决对滥用和真实性的担忧。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥1.05万亿
2 欧易OKX欧易OKX ¥4,026.47亿
3 HTXHTX ¥758.90亿
4 CoinbaseCoinbase ¥265.55亿
5 芝麻开门芝麻开门 ¥3,618.78亿
6 BitgetBitget ¥3,243.68亿
7 BybitBybit ¥3,287.69亿
8 双子星(Gemini)双子星(Gemini) ¥33.18亿
9 UpbitUpbit ¥179.49亿
10 Crypto.comCrypto.com ¥806.18亿