Ornith-1.0评测:自进化开源Coding Agent,本地跑出SWE-Bench 82.4分

📰 本文选自自游人今日AI科技日报

引言

Coding Agent的战争打到2026年年中,格局已经很清晰:Claude Code和Cursor占据高端市场,OpenAI Codex紧追其后。但如果你不想每个月付$200的订阅费,或者不想依赖需要信用卡和梯子的海外服务,谁是开源的答案?

DeepReinforce团队给出的答案是Ornith-1.0——一套MIT许可、全球可用的自进化Coding Agent模型家族。九B到397B四档全覆盖,GGUF量化版已经上传HuggingFace,你的游戏本能跑9B版,4090能跑35B版,服务器可以上397B。

最关键的是,它的训练思路跟所有竞品都不一样:不是学怎么写代码,而是学怎么用工具写出好代码。

一、核心概念:RL怎么训练一个Coding Agent

1.1 传统做法的死胡同

大多数Coding模型是这样训练的:给一堆代码仓库 → SFT微调 → 希望模型学会写代码。

问题是:Agent写代码不是闭卷考试。真正的Agent编程是在终端里跑命令、读报错、改代码、再跑命令——是一个反复试错的循环。SFT只能教你"应该写什么",教不了你"写错了之后怎么改"。

1.2 Ornith的突破:RL联合优化代码+脚手架

Ornith-1.0的论文核心就一句话:用强化学习同时优化"生成的代码"和"生成代码的脚手架(scaffold)"。

什么叫脚手架?就是Agent在完成任务过程中使用的工具链和搜索策略:先读哪个文件、后跑哪个测试、怎么分析报错信息、什么时候回溯重新开始——整个决策流程就是"脚手架"。

传统方法只优化"代码是否正确",Ornith的方法优化"找正确代码的路径是否高效"。这是根本的不同。

举个例子:

  • 传统模型学的是:给你一个issue → 写出正确patch
  • Ornith学的是:给你一个issue → 理解项目结构 → 定位相关文件 → 尝试修改 → 运行测试 → 看报错 → 调整修改 → 直到通过 → 提交patch

后者是真实世界的Agent行为链。RL就是在奖励这个链路的高效性——找对文件快 +1分,测试一次过 +3分,反复试错超过5轮 -2分。

二、Benchmark全面解读

2.1 四版本性能速览

Ornith-1.0有四个版本,基于Gemma 4和Qwen 3.5进行后训练:

版本参数架构部署建议
9B9BDense笔记本,16GB显存,GGUF量化
31B31BDense24GB显存(3090/4090)
35B35BMoE单卡H100或双卡消费级
397B397BMoE多卡服务器集群

2.2 397B旗舰:SWE-Bench Verified 82.4分

397B版在多项基准上与顶级闭源模型直接对比:

基准Ornith-1.0-397BQwen3.7-MaxDeepSeek-V4-ProClaude Opus 4.8Claude Opus 4.7
SWE-Bench Verified82.480.480.687.680.8
SWE-Bench Pro62.260.655.469.264.3
Terminal-Bench 2.1 (Terminus-2)77.573.564.085.070.3
Terminal-Bench 2.1 (Claude Code)78.269.866.578.969.7
SWE-Bench Multilingual78.978.376.2--
NL2Repo48.247.242.169.7-
Claw-eval Avg77.165.275.8-78.2

几个关键发现:

  1. SWE-Bench Verified 82.4分:在开源模型中绝对第一梯队。只落后Claude Opus 4.8约5分,差距在缩小。超过Qwen3.7-Max(80.4)和DeepSeek-V4-Pro(80.6)
  2. Terminal-Bench 82.4追赶78.9:用Claude Code框架评测时78.2分,只落后Opus 4.8不到1分——因为Ornith在Agent scaffold上的RL训练让它在终端交互场景中天然更强
  3. 多语言SWE-Bench 78.9:代码理解不挑语言,中英日韩统吃
  4. SWE Atlas三项(QnA 41.2 / RF 42.6 / TW 39.1):在代码理解和定位能力上达到强基线水平

2.3 35B MoE:性价比之王

35B版是很多开发者的首选:

基准Ornith-1.0-35BQwen3.6-35BQwen3.5-397B
SWE-Bench Verified75.673.476.4
SWE-Bench Pro50.449.551.6
Terminal-Bench 2.164.252.553.5
NL2Repo34.629.436.8

35B干掉397B? 在Terminal-Bench 2.1上,35B(64.2)显著超过Qwen3.5-397B(53.5)。RL训练来的脚手架搜索能力让"小模型"在需要反复试错的终端场景中更聪明。

2.4 9B Dense:笔记本能跑的Coding Agent

基准Ornith-1.0-9BQwen3.5-9BQwen3.5-35B
SWE-Bench Verified69.453.270.0
Terminal-Bench 2.143.121.341.4
NL2Repo27.216.220.5

9B版的SWE-Bench Verified 69.4分——这不只是一个"小模型还行"的水平,它打平了比自己大4倍的Qwen3.5-35B(70.0分)。在Terminal-Bench上直接翻倍(43.1 vs 21.3)。

这就是RL训练脚手架带来的质变:不用堆参数,堆策略。

三、本地部署实战

3.1 GGUF量化版:三条命令跑起来

Ornith-1.0已经提供了官方GGUF量化版,兼容Ollama和llama.cpp:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 方式一:Ollama(推荐)
# 下载9B GGUF版
ollama pull hf.co/deepreinforce-ai/Ornith-1.0-9B-GGUF

# 测试
ollama run hf.co/deepreinforce-ai/Ornith-1.0-9B-GGUF

# 方式二:llama.cpp直接运行
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./llama-cli -m Ornith-1.0-9B-Q4_K_M.gguf -p "写一个Python脚本..."

3.2 硬件要求速查

版本量化显存需求推荐硬件
9B GGUFQ4_K_M~6GBRTX 3060 / MacBook M3 16GB
35B GGUFQ4_K_M~22GBRTX 4090 24GB / M3 Max
35B FP8FP8~35GB双卡3090 / H100
397B FP8FP8~400GB多卡H100集群

3.3 作为Coding Agent使用

Ornith-1.0不只是对话模型,它被设计为Agent。支持的Agent框架包括:

  • 开源Harness:基于Harbor/Terminus-2的终端Agent框架
  • OpenCode:国产Coding Agent框架,实测兼容Ornith-1.0-35B
  • Ollama + Continue.dev:VSCode中直接调用本地Ornith模型

实测体验:35B GGUF版在RTX 4090上的单文件代码生成速度约15-25 token/s,能在合理时间内完成中等复杂度任务。多文件项目建议用397B FP8服务器部署。

四、与Claude Code / Cursor 对比选型

4.1 核心对比

维度Ornith-1.0Claude Code (Opus 4.8)Cursor
模型开源✅ MIT许可❌ 闭源API❌ 闭源
本地部署✅ GGUF + Ollama❌ 必须联网❌ 必须联网
使用成本免费(自己显卡)$5-25/M tokens$20/月
离线可用
SWE-Bench Verified82.487.6~80(依模型而定)
一键IDE集成需配置Claude Code原生原生集成
多文件重构中等极强
中文支持良好良好良好

4.2 选型建议

选Ornith-1.0的场景:

  • 预算敏感(学生、独立开发者)
  • 代码涉及隐私/商业机密不适合上传云端
  • 国内网络访问Claude不稳定
  • 需要24/7自由调用不担心额度用完
  • 做Agent研究需要可控、可调整的开源方案

选Claude Code/Cursor的场景:

  • 团队已有成熟付费流程,不care每月$200
  • 需要处理超大型代码库(百万行级)的跨文件重构
  • 需要Dynamic Workflows等独占特性
  • 追求极致的开箱即用体验

一个务实的组合方案:Ornith-1.0-35B本地日常开发 + Claude Code按需高强度任务。 90%的日常编码本地跑Ornith,10%的硬骨头请Claude出山。

总结

Ornith-1.0不是另一个"号称最强的开源模型"——它带着一个很清晰的差异化定位:用RL训练Agent的决策流程,不只是代码质量。 这个定位让它在一个参数规模下能干过更大模型,也让它天然适配终端Agent场景。

对于务实的开发者:35B GGUF版已经是今天性价比最高的本地Coding Agent方案。9B版让笔记本也能有正经的Agent编程体验。397B版告诉你"开源Coding Agent的天花板在哪"——SWE-Bench Verified 82.4分,距离Claude Opus不到5分。

下载,跑起来,换掉那个烧月费的工具。


参考来源:

  1. Ornith-1.0 GitHub 仓库(官方一手,MIT许可)
  2. HuggingFace: Ornith-1.0 Collection(官方一手,含GGUF量化版)
  3. HuggingFace: Ornith-1.0-35B-GGUF(GGUF下载页)
  4. DeepReinforce官网
  5. 2026 AI Coding工具一站配齐 - 博客园(国产AI编码工具实测对比)
  6. 2026 主流AI编码全景对比 - CSDN

📖 延伸阅读

📰 自游人日报 2026.6.27


最后更新:2026-06-27
本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM | CC BY-NC-SA 4.0

原文链接: https://www.17you.com/tool/ornith-1-agent-coding/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容