OpenClaw2026.4.5内置AI图片、视频、音乐生成功能详解

核心工具(内置,无需安装)

OpenClaw v2026.4.5 起,三个多媒体生成工具已内置到核心,不需要第三方插件:

工具用途
image_generate图片生成
video_generate视频生成
music_generate音乐生成

在对话中直接说需求,AI 自动调用对应工具,生成完成后文件直接发回聊天窗口


支持的供应商(Provider)

图片生成

平台特点
OpenAI (DALL-E)质量高,主流选择
Google ( Imagen )Google 官方模型
MiniMax国内可用,速度快
ComfyUI本地部署,开源可控
fal轻量选择

视频生成

平台特点
Runway行业标杆,Gen-3 代
Google LyriaGoogle 视频模型
MiniMax国内可用
Pika轻量视频生成
… 共 11 家平台

音乐生成

  • Suno、Udio 等平台集成

使用方式

方式一:自然语言触发(最简单)

code复制

1
2
3
用户:帮我生成一张科技感海报
用户:做一个10秒的沙漠日出视频
用户:来段轻快的背景音乐

AI 自动识别意图 → 调用对应工具 → 返回文件。

方式二:指定平台和风格

code复制

1
2
3
用户:用 Runway 生成一个赛博朋克风格的短视频
用户:用 OpenAI DALL-E 画一个赛博朋克风格海报
用户:用 Suno 做一首电子风格背景音乐

配置方法(进阶)

如果你想指定默认的图片/视频模型,可以编辑配置文件:

json复制

CLI 命令管理:

bash复制

1
2
3
4
5
6
7
8
# 查看当前模型状态
openclaw models status

# 设置图片模型
openclaw models set-image moonshot/kimi-vl-思考

# 设置视频模型
openclaw models set-video runway/gen3

异步任务追踪

视频/音乐生成通常是异步任务(需要等待),OpenClaw 会:

  1. 自动创建任务并跟踪进度
  2. 生成完成后自动推送结果到聊天
  3. 无需手动刷新或等待

与 Remotion Skill 的对比

aaOpenClaw 内置Remotion Skill(你已有的)
数据来源调用云端 API(Runway等)本地渲染 FFmpeg
输入自然语言描述图片 + 文案
质量依赖第三方模型能力可精细控制每一帧
速度等待 API 返回本地生成,即时
适用场景创意探索、快速原型精准控制、批量制作

简单说

  • OpenClaw 内置 = 动动嘴就能生成,适合快速出 idea
  • Remotion Skill = 精细化视频制作,适合微信视频号等正式内容
原文链接: https://www.17you.com/freeresources/openclaw-ai-image-video-music-generation/ 已复制!
寻找合作和资源

如果你也对文章内容或者分享的资源和机会有兴趣,欢迎联系我。

请点击联系我


相关内容