OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

核心工具(内置,无需安装)
OpenClaw v2026.4.5 起,三个多媒体生成工具已内置到核心,不需要第三方插件:

工具用途
image_generate图片生成
video_generate视频生成
music_generate音乐生成

在对话中直接说需求,AI 自动调用对应工具,生成完成后文件直接发回聊天窗口

支持的供应商(Provider)

图片生成

平台特点
OpenAI (DALL-E)质量高,主流选择
Google ( Imagen )Google 官方模型
MiniMax国内可用,速度快
ComfyUI本地部署,开源可控
fal轻量选择

音乐生成

  • Suno、Udio 等平台集成

使用方式

方式一:自然语言触发(最简单)

1
2
3
用户:帮我生成一张科技感海报
用户:做一个10秒的沙漠日出视频
用户:来段轻快的背景音乐

AI 自动识别意图 → 调用对应工具 → 返回文件。

方式二:指定平台和风格

1
2
3
用户:用 Runway 生成一个赛博朋克风格的短视频
用户:用 OpenAI DALL-E 画一个赛博朋克风格海报
用户:用 Suno 做一首电子风格背景音乐

视频生成

模式说明
generate纯文生视频
imageToVideo图片参考 → 视频
videoToVideo视频参考 → 视频(部分提供商支持)

支持的提供商矩阵

提供商默认模型文→视频图→视频视频→视频API 密钥
Googleveo-3.1-fast-generate-previewGEMINI_API_KEY
OpenAIsora-2OPENAI_API_KEY
Runwaygen4.5RUNWAYML_API_SECRET
xAIgrok-imagine-videoXAI_API_KEY
Alibabawan2.6-t2vMODELSTUDIO_API_KEY
Qwenwan2.6-t2vQWEN_API_KEY
MiniMaxMiniMax-Hailuo-2.3MINIMAX_API_KEY
BytePlusseedance-1-0-lite-t2vBYTEPLUS_API_KEY
falfal-ai/minimax/video-01-liveFAL_KEY
TogetherWan-AI/Wan2.2-T2V-A14BTOGETHER_API_KEY
ComfyUIworkflowCOMFY_API_KEY
Vydraveo3VYDRA_API_KEY

使用方式

方式一:自然语言触发(最简单)

1
2
用户发出请求 → 提交提供商 → 返回任务 ID → 后台处理(30s~5min)
→ 完成后自动唤醒会话 → 视频发回对话

防重复机制:同一会话已有任务在处理时,不会启动新任务。

方式二:智能回退

1
model 参数 → videoGenerationModel.primary → fallbacks[] → 自动检测可用提供商

尺寸、宽高比、时长等参数会在回退时自动重映射。

快速配置

1
2
3
4
5
_# 设置 API 密钥_
export GEMINI_API_KEY="your-key"
_# 固定默认模型_
openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"
_# 然后直接跟 AI 说就行_

异步任务追踪

1
2
3
4
5
6
7
8
9
用户请求
① queued — 任务创建,等待提供商接受
② running — 提供商处理中(30s ~ 5min,取决于模型和分辨率)
③ succeeded — 视频就绪,OpenClaw 通过内部事件唤醒原会话
  ↓  (或 failed — 错误详情回传给 agent)
④ agent 把视频发回对话

关键机制
去重防重复:同一会话已有 queued/running 的视频任务时,再次调用 video_generate 不会启动新任务,而是返回现有任务状态
会话唤醒:任务完成后 OpenClaw 自动通过 completion event 唤醒同一会话,agent 拿到媒体路径后直接发送
内联回退:在非会话场景(如直接工具调用)中,回退为同步模式,同一轮返回最终文件
CLI 管理:

1
2
3
 openclaw tasks list          # 查看所有任务
  openclaw tasks show <taskId> # 查看单个任务详情
  openclaw tasks cancel <taskId> # 取消任务

OpenClaw 有六个模型槽位,视频生成是其中之一:

槽位配置键用途
主文本模型agents.defaults.model日常对话、推理
图像理解agents.defaults.imageModel接收图片输入
PDF 理解agents.defaults.pdfModel文档解析
图像生成agents.defaults.imageGenerationModel创建图片
音乐生成agents.defaults.musicGenerationModel创建音乐
视频生成agents.defaults.videoGenerationModel创建视频
推荐配置示例
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
{
  "agents": {
    "defaults": {
      "videoGenerationModel": {
        "primary": "google/veo-3.1-fast-generate-preview",
        "fallbacks": ["runway/gen4.5", "qwen/wan2.6-t2v"]
      }
    }
  }
}

或 CLI:

1
openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"

只要设了任意一个提供商的 API Key,video_generate 工具就会自动出现。
video-generation官方文档

图像生成增强(v2026.4.9)

媒体生成统一框架的改进:

  • 自动回退:跨提供商的图像/音乐/视频自动回退
  • 意图保留:切换提供商时自动重映射 size/aspectRatio/resolution/duration
  • 提供商能力暴露:模式感知的能力声明

与 Remotion Skill 的对比

aaOpenClaw 内置Remotion Skill(你已有的)
数据来源调用云端 API(Runway等)本地渲染 FFmpeg
输入自然语言描述图片 + 文案
质量依赖第三方模型能力可精细控制每一帧
速度等待 API 返回本地生成,即时
适用场景创意探索、快速原型精准控制、批量制作

简单说

  • OpenClaw 内置 = 动动嘴就能生成,适合快速出 idea
  • Remotion Skill = 精细化视频制作,适合微信视频号等正式内容
原文链接: https://www.17you.com/freeresources/openclaw-ai-image-video-music-generation/ 已复制!
寻找合作和资源

如果你也对文章内容或者分享的资源和机会有兴趣,欢迎联系我。

请点击联系我


相关内容