OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

2026-04-09 2026-04-09 约 800 字预计阅读 2 分钟

核心工具（内置，无需安装）

OpenClaw v2026.4.5 起，三个多媒体生成工具已内置到核心，不需要第三方插件：

工具	用途
`image_generate`	图片生成
`video_generate`	视频生成
`music_generate`	音乐生成

在对话中直接说需求，AI 自动调用对应工具，生成完成后文件直接发回聊天窗口。

支持的供应商（Provider）

图片生成

平台	特点
OpenAI (DALL-E)	质量高，主流选择
Google ( Imagen )	Google 官方模型
MiniMax	国内可用，速度快
ComfyUI	本地部署，开源可控
fal	轻量选择

视频生成

平台	特点
Runway	行业标杆，Gen-3 代
Google Lyria	Google 视频模型
MiniMax	国内可用
Pika	轻量视频生成
… 共 11 家平台

音乐生成

Suno、Udio 等平台集成

使用方式

方式一：自然语言触发（最简单）

code复制

1
2
3
用户：帮我生成一张科技感海报
用户：做一个10秒的沙漠日出视频
用户：来段轻快的背景音乐

AI 自动识别意图 → 调用对应工具 → 返回文件。

方式二：指定平台和风格

code复制

1
2
3
用户：用 Runway 生成一个赛博朋克风格的短视频
用户：用 OpenAI DALL-E 画一个赛博朋克风格海报
用户：用 Suno 做一首电子风格背景音乐

配置方法（进阶）

如果你想指定默认的图片/视频模型，可以编辑配置文件：

json复制

CLI 命令管理：

bash复制

1
2
3
4
5
6
7
8
# 查看当前模型状态
openclaw models status

# 设置图片模型
openclaw models set-image moonshot/kimi-vl-思考

# 设置视频模型
openclaw models set-video runway/gen3

异步任务追踪

视频/音乐生成通常是异步任务（需要等待），OpenClaw 会：

自动创建任务并跟踪进度
生成完成后自动推送结果到聊天
无需手动刷新或等待

与 Remotion Skill 的对比

aa	OpenClaw 内置	Remotion Skill（你已有的）
数据来源	调用云端 API（Runway等）	本地渲染 FFmpeg
输入	自然语言描述	图片 + 文案
质量	依赖第三方模型能力	可精细控制每一帧
速度	等待 API 返回	本地生成，即时
适用场景	创意探索、快速原型	精准控制、批量制作

简单说：

OpenClaw 内置 = 动动嘴就能生成，适合快速出 idea
Remotion Skill = 精细化视频制作，适合微信视频号等正式内容

原文链接： https://www.17you.com/freeresources/openclaw-ai-image-video-music-generation/ 已复制！

寻找合作和资源

如果你也对文章内容或者分享的资源和机会有兴趣，欢迎联系我。

请点击联系我

OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

核心工具（内置，无需安装）

支持的供应商（Provider）

图片生成

视频生成

音乐生成

使用方式

方式一：自然语言触发（最简单）

方式二：指定平台和风格

配置方法（进阶）

异步任务追踪

与 Remotion Skill 的对比

相关内容

目录