OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

2026-04-09 2026-07-03 约 1400 字预计阅读 3 分钟 0 条评论 0 次阅读

核心工具（内置，无需安装）
OpenClaw v2026.4.5 起，三个多媒体生成工具已内置到核心，不需要第三方插件：

工具	用途
`image_generate`	图片生成
`video_generate`	视频生成
`music_generate`	音乐生成

在对话中直接说需求，AI 自动调用对应工具，生成完成后文件直接发回聊天窗口。

支持的供应商（Provider）

图片生成

平台	特点
OpenAI (DALL-E)	质量高，主流选择
Google ( Imagen )	Google 官方模型
MiniMax	国内可用，速度快
ComfyUI	本地部署，开源可控
fal	轻量选择

音乐生成

Suno、Udio 等平台集成

使用方式

方式一：自然语言触发（最简单）

1
2
3
用户：帮我生成一张科技感海报
用户：做一个10秒的沙漠日出视频
用户：来段轻快的背景音乐

AI 自动识别意图 → 调用对应工具 → 返回文件。

方式二：指定平台和风格

1
2
3
用户：用 Runway 生成一个赛博朋克风格的短视频
用户：用 OpenAI DALL-E 画一个赛博朋克风格海报
用户：用 Suno 做一首电子风格背景音乐

视频生成

模式	说明
`generate`	纯文生视频
`imageToVideo`	图片参考 → 视频
`videoToVideo`	视频参考 → 视频（部分提供商支持）

支持的提供商矩阵

提供商	默认模型	文→视频	图→视频	视频→视频	API 密钥
Google	`veo-3.1-fast-generate-preview`	✅	✅	✅	`GEMINI_API_KEY`
OpenAI	`sora-2`	✅	✅	✅	`OPENAI_API_KEY`
Runway	`gen4.5`	✅	✅	✅	`RUNWAYML_API_SECRET`
xAI	`grok-imagine-video`	✅	✅	✅	`XAI_API_KEY`
Alibaba	`wan2.6-t2v`	✅	✅	✅	`MODELSTUDIO_API_KEY`
Qwen	`wan2.6-t2v`	✅	✅	✅	`QWEN_API_KEY`
MiniMax	`MiniMax-Hailuo-2.3`	✅	✅	❌	`MINIMAX_API_KEY`
BytePlus	`seedance-1-0-lite-t2v`	✅	✅	❌	`BYTEPLUS_API_KEY`
fal	`fal-ai/minimax/video-01-live`	✅	✅	❌	`FAL_KEY`
Together	`Wan-AI/Wan2.2-T2V-A14B`	✅	✅	❌	`TOGETHER_API_KEY`
ComfyUI	workflow	✅	✅	❌	`COMFY_API_KEY`
Vydra	`veo3`	✅	✅	❌	`VYDRA_API_KEY`

使用方式

方式一：自然语言触发（最简单）

1
2
用户发出请求 → 提交提供商 → 返回任务 ID → 后台处理(30s~5min)
→ 完成后自动唤醒会话 → 视频发回对话

防重复机制：同一会话已有任务在处理时，不会启动新任务。

方式二：智能回退

`1`	`model 参数 → videoGenerationModel.primary → fallbacks[] → 自动检测可用提供商`

尺寸、宽高比、时长等参数会在回退时自动重映射。

快速配置

1
2
3
4
5
_# 设置 API 密钥_
export GEMINI_API_KEY="your-key"
_# 固定默认模型_
openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"
_# 然后直接跟 AI 说就行_

异步任务追踪

1
2
3
4
5
6
7
8
9
用户请求
  ↓
① queued — 任务创建，等待提供商接受
  ↓
② running — 提供商处理中（30s ~ 5min，取决于模型和分辨率）
  ↓
③ succeeded — 视频就绪，OpenClaw 通过内部事件唤醒原会话
  ↓  （或 failed — 错误详情回传给 agent）
④ agent 把视频发回对话

关键机制
去重防重复：同一会话已有 queued/running 的视频任务时，再次调用 video_generate 不会启动新任务，而是返回现有任务状态
会话唤醒：任务完成后 OpenClaw 自动通过 completion event 唤醒同一会话，agent 拿到媒体路径后直接发送
内联回退：在非会话场景（如直接工具调用）中，回退为同步模式，同一轮返回最终文件
CLI 管理：

1
2
3
 openclaw tasks list          # 查看所有任务
  openclaw tasks show <taskId> # 查看单个任务详情
  openclaw tasks cancel <taskId> # 取消任务

OpenClaw 有六个模型槽位，视频生成是其中之一：

槽位	配置键	用途
主文本模型	`agents.defaults.model`	日常对话、推理
图像理解	`agents.defaults.imageModel`	接收图片输入
PDF 理解	`agents.defaults.pdfModel`	文档解析
图像生成	`agents.defaults.imageGenerationModel`	创建图片
音乐生成	`agents.defaults.musicGenerationModel`	创建音乐
视频生成	`agents.defaults.videoGenerationModel`	创建视频
推荐配置示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
{
  "agents": {
    "defaults": {
      "videoGenerationModel": {
        "primary": "google/veo-3.1-fast-generate-preview",
        "fallbacks": ["runway/gen4.5", "qwen/wan2.6-t2v"]
      }
    }
  }
}

或 CLI：

`1`	`openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"`

只要设了任意一个提供商的 API Key，video_generate 工具就会自动出现。
video-generation官方文档

图像生成增强（v2026.4.9）

媒体生成统一框架的改进：

自动回退：跨提供商的图像/音乐/视频自动回退
意图保留：切换提供商时自动重映射 size/aspectRatio/resolution/duration
提供商能力暴露：模式感知的能力声明

与 Remotion Skill 的对比

aa	OpenClaw 内置	Remotion Skill（你已有的）
数据来源	调用云端 API（Runway等）	本地渲染 FFmpeg
输入	自然语言描述	图片 + 文案
质量	依赖第三方模型能力	可精细控制每一帧
速度	等待 API 返回	本地生成，即时
适用场景	创意探索、快速原型	精准控制、批量制作

简单说：

OpenClaw 内置 = 动动嘴就能生成，适合快速出 idea
Remotion Skill = 精细化视频制作，适合微信视频号等正式内容

原文链接： https://www.17you.com/freeresources/openclaw-ai-image-video-music-generation/ 已复制！

寻找合作和资源

如果你也对文章内容或者分享的资源和机会有兴趣，欢迎联系我。

请点击联系我

OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

支持的供应商（Provider）

图片生成

音乐生成

使用方式

方式一：自然语言触发（最简单）

方式二：指定平台和风格

视频生成

支持的提供商矩阵

使用方式

方式一：自然语言触发（最简单）

方式二：智能回退

快速配置

异步任务追踪

图像生成增强（v2026.4.9）

与 Remotion Skill 的对比

相关内容

目录