OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解
目录
核心工具(内置,无需安装)
OpenClaw v2026.4.5 起,三个多媒体生成工具已内置到核心,不需要第三方插件:
| 工具 | 用途 |
|---|---|
image_generate | 图片生成 |
video_generate | 视频生成 |
music_generate | 音乐生成 |
在对话中直接说需求,AI 自动调用对应工具,生成完成后文件直接发回聊天窗口。
支持的供应商(Provider)
图片生成
| 平台 | 特点 |
|---|---|
| OpenAI (DALL-E) | 质量高,主流选择 |
| Google ( Imagen ) | Google 官方模型 |
| MiniMax | 国内可用,速度快 |
| ComfyUI | 本地部署,开源可控 |
| fal | 轻量选择 |
音乐生成
- Suno、Udio 等平台集成
使用方式
方式一:自然语言触发(最简单)
| |
AI 自动识别意图 → 调用对应工具 → 返回文件。
方式二:指定平台和风格
| |
视频生成
| 模式 | 说明 |
|---|---|
generate | 纯文生视频 |
imageToVideo | 图片参考 → 视频 |
videoToVideo | 视频参考 → 视频(部分提供商支持) |
支持的提供商矩阵
| 提供商 | 默认模型 | 文→视频 | 图→视频 | 视频→视频 | API 密钥 |
|---|---|---|---|---|---|
veo-3.1-fast-generate-preview | ✅ | ✅ | ✅ | GEMINI_API_KEY | |
| OpenAI | sora-2 | ✅ | ✅ | ✅ | OPENAI_API_KEY |
| Runway | gen4.5 | ✅ | ✅ | ✅ | RUNWAYML_API_SECRET |
| xAI | grok-imagine-video | ✅ | ✅ | ✅ | XAI_API_KEY |
| Alibaba | wan2.6-t2v | ✅ | ✅ | ✅ | MODELSTUDIO_API_KEY |
| Qwen | wan2.6-t2v | ✅ | ✅ | ✅ | QWEN_API_KEY |
| MiniMax | MiniMax-Hailuo-2.3 | ✅ | ✅ | ❌ | MINIMAX_API_KEY |
| BytePlus | seedance-1-0-lite-t2v | ✅ | ✅ | ❌ | BYTEPLUS_API_KEY |
| fal | fal-ai/minimax/video-01-live | ✅ | ✅ | ❌ | FAL_KEY |
| Together | Wan-AI/Wan2.2-T2V-A14B | ✅ | ✅ | ❌ | TOGETHER_API_KEY |
| ComfyUI | workflow | ✅ | ✅ | ❌ | COMFY_API_KEY |
| Vydra | veo3 | ✅ | ✅ | ❌ | VYDRA_API_KEY |
使用方式
方式一:自然语言触发(最简单)
| |
防重复机制:同一会话已有任务在处理时,不会启动新任务。
方式二:智能回退
| |
尺寸、宽高比、时长等参数会在回退时自动重映射。
快速配置
| |
异步任务追踪
| |
关键机制
去重防重复:同一会话已有 queued/running 的视频任务时,再次调用 video_generate 不会启动新任务,而是返回现有任务状态
会话唤醒:任务完成后 OpenClaw 自动通过 completion event 唤醒同一会话,agent 拿到媒体路径后直接发送
内联回退:在非会话场景(如直接工具调用)中,回退为同步模式,同一轮返回最终文件
CLI 管理:
| |
OpenClaw 有六个模型槽位,视频生成是其中之一:
| 槽位 | 配置键 | 用途 |
|---|---|---|
| 主文本模型 | agents.defaults.model | 日常对话、推理 |
| 图像理解 | agents.defaults.imageModel | 接收图片输入 |
| PDF 理解 | agents.defaults.pdfModel | 文档解析 |
| 图像生成 | agents.defaults.imageGenerationModel | 创建图片 |
| 音乐生成 | agents.defaults.musicGenerationModel | 创建音乐 |
| 视频生成 | agents.defaults.videoGenerationModel | 创建视频 |
| 推荐配置示例 |
| |
或 CLI:
| |
只要设了任意一个提供商的 API Key,video_generate 工具就会自动出现。
video-generation官方文档
图像生成增强(v2026.4.9)
媒体生成统一框架的改进:
- 自动回退:跨提供商的图像/音乐/视频自动回退
- 意图保留:切换提供商时自动重映射 size/aspectRatio/resolution/duration
- 提供商能力暴露:模式感知的能力声明
与 Remotion Skill 的对比
| aa | OpenClaw 内置 | Remotion Skill(你已有的) |
|---|---|---|
| 数据来源 | 调用云端 API(Runway等) | 本地渲染 FFmpeg |
| 输入 | 自然语言描述 | 图片 + 文案 |
| 质量 | 依赖第三方模型能力 | 可精细控制每一帧 |
| 速度 | 等待 API 返回 | 本地生成,即时 |
| 适用场景 | 创意探索、快速原型 | 精准控制、批量制作 |
简单说:
- OpenClaw 内置 = 动动嘴就能生成,适合快速出 idea
- Remotion Skill = 精细化视频制作,适合微信视频号等正式内容
原文链接:
https://www.17you.com/freeresources/openclaw-ai-image-video-music-generation/
已复制!
寻找合作和资源
如果你也对文章内容或者分享的资源和机会有兴趣,欢迎联系我。
相关内容
- OpenClaw 2026.4.11版本更新:记忆维基与主动记忆功能详解
- OpenClaw源码深度解析:队列、缓存与性能优化全攻略
- OpenClaw 2026.4.9 更新:记忆系统强化,视频图像生成进核心
- z-image-turbo MCP服务配置指南:OpenClaw与OpenCode集成
- QClaw客户端架构与Queue Guard排队机制探索
- OpenClaw接入OpenRouter免费Qwen3.6plus模型配置教程