Question 1

应该使用哪个 Gemini Omni 模型？

Accepted Answer

Veo 3.1 适合通用文本/图像生成视频；Gemini Omni Flash 适合快速 Gemini Omni 视频工作流；GPT Image 2 适合静态图像和图像编辑。

Question 2

Gemini Omni Flash 接受音频或视频文件输入吗？

Accepted Answer

不接受。当前工作流接受必填文本提示词和可选图像 URL。音频是可选输出，不是直接输入文件。

Question 3

哪些模型支持音频生成？

Accepted Answer

当前视频工作流通过 VEO 3.1 official 接入提供可选音频生成。GPT Image 2 不生成音频。

Question 4

哪个模型积分成本最低？

Accepted Answer

静态图像通常从 GPT Image 2 起步更低。视频成本取决于时长、分辨率和音频。提交前请在生成器预览准确成本。

模型	输入	输出	最高分辨率	时长	音频	积分	最适合
Veo 3.1	文本 / 图像	视频	支持时可到 4K	4 / 6 / 8 秒	是	60+	提示词视频、图像生成视频、可选音频和高分辨率最终片段
Gemini Omni Flash	文本 / 图像	视频	支持时可到 4K	4 / 6 / 8 秒	是	60+	从提示词或最多 3 张参考图快速生成 Gemini Omni 视频草稿
GPT Image 2	文本 / 图像	图像	最高 4K	—	—	3+	AI 图像、参考帧、产品视觉和提示词引导编辑

应该使用哪个 Gemini Omni 模型？

浏览 Gemini Omni 模型