Ornith-1.0评测:自进化开源Coding Agent,本地跑出SWE-Bench 82.4分
📰 本文选自自游人今日AI科技日报
引言
Coding Agent的战争打到2026年年中,格局已经很清晰:Claude Code和Cursor占据高端市场,OpenAI Codex紧追其后。但如果你不想每个月付$200的订阅费,或者不想依赖需要信用卡和梯子的海外服务,谁是开源的答案?
DeepReinforce团队给出的答案是Ornith-1.0——一套MIT许可、全球可用的自进化Coding Agent模型家族。九B到397B四档全覆盖,GGUF量化版已经上传HuggingFace,你的游戏本能跑9B版,4090能跑35B版,服务器可以上397B。
最关键的是,它的训练思路跟所有竞品都不一样:不是学怎么写代码,而是学怎么用工具写出好代码。
一、核心概念:RL怎么训练一个Coding Agent
1.1 传统做法的死胡同
大多数Coding模型是这样训练的:给一堆代码仓库 → SFT微调 → 希望模型学会写代码。
问题是:Agent写代码不是闭卷考试。真正的Agent编程是在终端里跑命令、读报错、改代码、再跑命令——是一个反复试错的循环。SFT只能教你"应该写什么",教不了你"写错了之后怎么改"。
1.2 Ornith的突破:RL联合优化代码+脚手架
Ornith-1.0的论文核心就一句话:用强化学习同时优化"生成的代码"和"生成代码的脚手架(scaffold)"。
什么叫脚手架?就是Agent在完成任务过程中使用的工具链和搜索策略:先读哪个文件、后跑哪个测试、怎么分析报错信息、什么时候回溯重新开始——整个决策流程就是"脚手架"。
传统方法只优化"代码是否正确",Ornith的方法优化"找正确代码的路径是否高效"。这是根本的不同。
举个例子:
- 传统模型学的是:给你一个issue → 写出正确patch
- Ornith学的是:给你一个issue → 理解项目结构 → 定位相关文件 → 尝试修改 → 运行测试 → 看报错 → 调整修改 → 直到通过 → 提交patch
后者是真实世界的Agent行为链。RL就是在奖励这个链路的高效性——找对文件快 +1分,测试一次过 +3分,反复试错超过5轮 -2分。
二、Benchmark全面解读
2.1 四版本性能速览
Ornith-1.0有四个版本,基于Gemma 4和Qwen 3.5进行后训练:
| 版本 | 参数 | 架构 | 部署建议 |
|---|---|---|---|
| 9B | 9B | Dense | 笔记本,16GB显存,GGUF量化 |
| 31B | 31B | Dense | 24GB显存(3090/4090) |
| 35B | 35B | MoE | 单卡H100或双卡消费级 |
| 397B | 397B | MoE | 多卡服务器集群 |
2.2 397B旗舰:SWE-Bench Verified 82.4分
397B版在多项基准上与顶级闭源模型直接对比:
| 基准 | Ornith-1.0-397B | Qwen3.7-Max | DeepSeek-V4-Pro | Claude Opus 4.8 | Claude Opus 4.7 |
|---|---|---|---|---|---|
| SWE-Bench Verified | 82.4 | 80.4 | 80.6 | 87.6 | 80.8 |
| SWE-Bench Pro | 62.2 | 60.6 | 55.4 | 69.2 | 64.3 |
| Terminal-Bench 2.1 (Terminus-2) | 77.5 | 73.5 | 64.0 | 85.0 | 70.3 |
| Terminal-Bench 2.1 (Claude Code) | 78.2 | 69.8 | 66.5 | 78.9 | 69.7 |
| SWE-Bench Multilingual | 78.9 | 78.3 | 76.2 | - | - |
| NL2Repo | 48.2 | 47.2 | 42.1 | 69.7 | - |
| Claw-eval Avg | 77.1 | 65.2 | 75.8 | - | 78.2 |
几个关键发现:
- SWE-Bench Verified 82.4分:在开源模型中绝对第一梯队。只落后Claude Opus 4.8约5分,差距在缩小。超过Qwen3.7-Max(80.4)和DeepSeek-V4-Pro(80.6)
- Terminal-Bench 82.4追赶78.9:用Claude Code框架评测时78.2分,只落后Opus 4.8不到1分——因为Ornith在Agent scaffold上的RL训练让它在终端交互场景中天然更强
- 多语言SWE-Bench 78.9:代码理解不挑语言,中英日韩统吃
- SWE Atlas三项(QnA 41.2 / RF 42.6 / TW 39.1):在代码理解和定位能力上达到强基线水平
2.3 35B MoE:性价比之王
35B版是很多开发者的首选:
| 基准 | Ornith-1.0-35B | Qwen3.6-35B | Qwen3.5-397B |
|---|---|---|---|
| SWE-Bench Verified | 75.6 | 73.4 | 76.4 |
| SWE-Bench Pro | 50.4 | 49.5 | 51.6 |
| Terminal-Bench 2.1 | 64.2 | 52.5 | 53.5 |
| NL2Repo | 34.6 | 29.4 | 36.8 |
35B干掉397B? 在Terminal-Bench 2.1上,35B(64.2)显著超过Qwen3.5-397B(53.5)。RL训练来的脚手架搜索能力让"小模型"在需要反复试错的终端场景中更聪明。
2.4 9B Dense:笔记本能跑的Coding Agent
| 基准 | Ornith-1.0-9B | Qwen3.5-9B | Qwen3.5-35B |
|---|---|---|---|
| SWE-Bench Verified | 69.4 | 53.2 | 70.0 |
| Terminal-Bench 2.1 | 43.1 | 21.3 | 41.4 |
| NL2Repo | 27.2 | 16.2 | 20.5 |
9B版的SWE-Bench Verified 69.4分——这不只是一个"小模型还行"的水平,它打平了比自己大4倍的Qwen3.5-35B(70.0分)。在Terminal-Bench上直接翻倍(43.1 vs 21.3)。
这就是RL训练脚手架带来的质变:不用堆参数,堆策略。
三、本地部署实战
3.1 GGUF量化版:三条命令跑起来
Ornith-1.0已经提供了官方GGUF量化版,兼容Ollama和llama.cpp:
| |
3.2 硬件要求速查
| 版本 | 量化 | 显存需求 | 推荐硬件 |
|---|---|---|---|
| 9B GGUF | Q4_K_M | ~6GB | RTX 3060 / MacBook M3 16GB |
| 35B GGUF | Q4_K_M | ~22GB | RTX 4090 24GB / M3 Max |
| 35B FP8 | FP8 | ~35GB | 双卡3090 / H100 |
| 397B FP8 | FP8 | ~400GB | 多卡H100集群 |
3.3 作为Coding Agent使用
Ornith-1.0不只是对话模型,它被设计为Agent。支持的Agent框架包括:
- 开源Harness:基于Harbor/Terminus-2的终端Agent框架
- OpenCode:国产Coding Agent框架,实测兼容Ornith-1.0-35B
- Ollama + Continue.dev:VSCode中直接调用本地Ornith模型
实测体验:35B GGUF版在RTX 4090上的单文件代码生成速度约15-25 token/s,能在合理时间内完成中等复杂度任务。多文件项目建议用397B FP8服务器部署。
四、与Claude Code / Cursor 对比选型
4.1 核心对比
| 维度 | Ornith-1.0 | Claude Code (Opus 4.8) | Cursor |
|---|---|---|---|
| 模型开源 | ✅ MIT许可 | ❌ 闭源API | ❌ 闭源 |
| 本地部署 | ✅ GGUF + Ollama | ❌ 必须联网 | ❌ 必须联网 |
| 使用成本 | 免费(自己显卡) | $5-25/M tokens | $20/月 |
| 离线可用 | ✅ | ❌ | ❌ |
| SWE-Bench Verified | 82.4 | 87.6 | ~80(依模型而定) |
| 一键IDE集成 | 需配置 | Claude Code原生 | 原生集成 |
| 多文件重构 | 中等 | 极强 | 强 |
| 中文支持 | 良好 | 良好 | 良好 |
4.2 选型建议
选Ornith-1.0的场景:
- 预算敏感(学生、独立开发者)
- 代码涉及隐私/商业机密不适合上传云端
- 国内网络访问Claude不稳定
- 需要24/7自由调用不担心额度用完
- 做Agent研究需要可控、可调整的开源方案
选Claude Code/Cursor的场景:
- 团队已有成熟付费流程,不care每月$200
- 需要处理超大型代码库(百万行级)的跨文件重构
- 需要Dynamic Workflows等独占特性
- 追求极致的开箱即用体验
一个务实的组合方案:Ornith-1.0-35B本地日常开发 + Claude Code按需高强度任务。 90%的日常编码本地跑Ornith,10%的硬骨头请Claude出山。
总结
Ornith-1.0不是另一个"号称最强的开源模型"——它带着一个很清晰的差异化定位:用RL训练Agent的决策流程,不只是代码质量。 这个定位让它在一个参数规模下能干过更大模型,也让它天然适配终端Agent场景。
对于务实的开发者:35B GGUF版已经是今天性价比最高的本地Coding Agent方案。9B版让笔记本也能有正经的Agent编程体验。397B版告诉你"开源Coding Agent的天花板在哪"——SWE-Bench Verified 82.4分,距离Claude Opus不到5分。
下载,跑起来,换掉那个烧月费的工具。
参考来源:
- Ornith-1.0 GitHub 仓库(官方一手,MIT许可)
- HuggingFace: Ornith-1.0 Collection(官方一手,含GGUF量化版)
- HuggingFace: Ornith-1.0-35B-GGUF(GGUF下载页)
- DeepReinforce官网
- 2026 AI Coding工具一站配齐 - 博客园(国产AI编码工具实测对比)
- 2026 主流AI编码全景对比 - CSDN
📖 延伸阅读
- 🧠 DeepSeek DSpark 全解析 — 推理效率革命
- 🤖 UI-TARS 桌面自动化 — Agent双胞胎对比
- 🧠 MRAgent 记忆框架 — Agent的成本账
最后更新:2026-06-27
本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM | CC BY-NC-SA 4.0
寻找技术支持帮助和技术合伙人一起搞事。
相关内容
- Anthropic出口管制:全球AI格局正在被改写
- DeepSeek DSpark 全解析:推测解码如何让 V4 推理快 4 倍
- MRAgent记忆框架:让AI Agent不再金鱼记忆,Token成本暴降96%
- Prompt注入2026全景:2000人挑战0成功,你的Agent防线够吗
- UI-TARS-Desktop:字节开源桌面自动化 Agent,26K Stars 的 Claude Computer Use 替代品
- GLM-5.2 零成本部署指南:从 Cloudflare Workers AI 到本地 RTX 4090
