Ornith-1.0评测：自进化开源Coding Agent，本地跑出SWE-Bench 82.4分

2026-06-27 2026-06-27 约 3300 字预计阅读 7 分钟 0 条评论 0 次阅读

📰 本文选自自游人今日AI科技日报

引言

Coding Agent的战争打到2026年年中，格局已经很清晰：Claude Code和Cursor占据高端市场，OpenAI Codex紧追其后。但如果你不想每个月付$200的订阅费，或者不想依赖需要信用卡和梯子的海外服务，谁是开源的答案？

DeepReinforce团队给出的答案是Ornith-1.0——一套MIT许可、全球可用的自进化Coding Agent模型家族。九B到397B四档全覆盖，GGUF量化版已经上传HuggingFace，你的游戏本能跑9B版，4090能跑35B版，服务器可以上397B。

最关键的是，它的训练思路跟所有竞品都不一样：不是学怎么写代码，而是学怎么用工具写出好代码。

一、核心概念：RL怎么训练一个Coding Agent

1.1 传统做法的死胡同

大多数Coding模型是这样训练的：给一堆代码仓库 → SFT微调 → 希望模型学会写代码。

问题是：Agent写代码不是闭卷考试。真正的Agent编程是在终端里跑命令、读报错、改代码、再跑命令——是一个反复试错的循环。SFT只能教你"应该写什么"，教不了你"写错了之后怎么改"。

1.2 Ornith的突破：RL联合优化代码+脚手架

Ornith-1.0的论文核心就一句话：用强化学习同时优化"生成的代码"和"生成代码的脚手架（scaffold）"。

什么叫脚手架？就是Agent在完成任务过程中使用的工具链和搜索策略：先读哪个文件、后跑哪个测试、怎么分析报错信息、什么时候回溯重新开始——整个决策流程就是"脚手架"。

传统方法只优化"代码是否正确"，Ornith的方法优化"找正确代码的路径是否高效"。这是根本的不同。

举个例子：

传统模型学的是：给你一个issue → 写出正确patch
Ornith学的是：给你一个issue → 理解项目结构 → 定位相关文件 → 尝试修改 → 运行测试 → 看报错 → 调整修改 → 直到通过 → 提交patch

后者是真实世界的Agent行为链。RL就是在奖励这个链路的高效性——找对文件快 +1分，测试一次过 +3分，反复试错超过5轮 -2分。

二、Benchmark全面解读

2.1 四版本性能速览

Ornith-1.0有四个版本，基于Gemma 4和Qwen 3.5进行后训练：

版本	参数	架构	部署建议
9B	9B	Dense	笔记本，16GB显存，GGUF量化
31B	31B	Dense	24GB显存（3090/4090）
35B	35B	MoE	单卡H100或双卡消费级
397B	397B	MoE	多卡服务器集群

2.2 397B旗舰：SWE-Bench Verified 82.4分

397B版在多项基准上与顶级闭源模型直接对比：

基准	Ornith-1.0-397B	Qwen3.7-Max	DeepSeek-V4-Pro	Claude Opus 4.8	Claude Opus 4.7
SWE-Bench Verified	82.4	80.4	80.6	87.6	80.8
SWE-Bench Pro	62.2	60.6	55.4	69.2	64.3
Terminal-Bench 2.1 (Terminus-2)	77.5	73.5	64.0	85.0	70.3
Terminal-Bench 2.1 (Claude Code)	78.2	69.8	66.5	78.9	69.7
SWE-Bench Multilingual	78.9	78.3	76.2	-	-
NL2Repo	48.2	47.2	42.1	69.7	-
Claw-eval Avg	77.1	65.2	75.8	-	78.2

几个关键发现：

SWE-Bench Verified 82.4分：在开源模型中绝对第一梯队。只落后Claude Opus 4.8约5分，差距在缩小。超过Qwen3.7-Max（80.4）和DeepSeek-V4-Pro（80.6）
Terminal-Bench 82.4追赶78.9：用Claude Code框架评测时78.2分，只落后Opus 4.8不到1分——因为Ornith在Agent scaffold上的RL训练让它在终端交互场景中天然更强
多语言SWE-Bench 78.9：代码理解不挑语言，中英日韩统吃
SWE Atlas三项（QnA 41.2 / RF 42.6 / TW 39.1）：在代码理解和定位能力上达到强基线水平

2.3 35B MoE：性价比之王

35B版是很多开发者的首选：

基准	Ornith-1.0-35B	Qwen3.6-35B	Qwen3.5-397B
SWE-Bench Verified	75.6	73.4	76.4
SWE-Bench Pro	50.4	49.5	51.6
Terminal-Bench 2.1	64.2	52.5	53.5
NL2Repo	34.6	29.4	36.8

35B干掉397B？ 在Terminal-Bench 2.1上，35B（64.2）显著超过Qwen3.5-397B（53.5）。RL训练来的脚手架搜索能力让"小模型"在需要反复试错的终端场景中更聪明。

2.4 9B Dense：笔记本能跑的Coding Agent

基准	Ornith-1.0-9B	Qwen3.5-9B	Qwen3.5-35B
SWE-Bench Verified	69.4	53.2	70.0
Terminal-Bench 2.1	43.1	21.3	41.4
NL2Repo	27.2	16.2	20.5

9B版的SWE-Bench Verified 69.4分——这不只是一个"小模型还行"的水平，它打平了比自己大4倍的Qwen3.5-35B（70.0分）。在Terminal-Bench上直接翻倍（43.1 vs 21.3）。

这就是RL训练脚手架带来的质变：不用堆参数，堆策略。

三、本地部署实战

3.1 GGUF量化版：三条命令跑起来

Ornith-1.0已经提供了官方GGUF量化版，兼容Ollama和llama.cpp：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 方式一：Ollama（推荐）
# 下载9B GGUF版
ollama pull hf.co/deepreinforce-ai/Ornith-1.0-9B-GGUF

# 测试
ollama run hf.co/deepreinforce-ai/Ornith-1.0-9B-GGUF

# 方式二：llama.cpp直接运行
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./llama-cli -m Ornith-1.0-9B-Q4_K_M.gguf -p "写一个Python脚本..."

3.2 硬件要求速查

版本	量化	显存需求	推荐硬件
9B GGUF	Q4_K_M	~6GB	RTX 3060 / MacBook M3 16GB
35B GGUF	Q4_K_M	~22GB	RTX 4090 24GB / M3 Max
35B FP8	FP8	~35GB	双卡3090 / H100
397B FP8	FP8	~400GB	多卡H100集群

3.3 作为Coding Agent使用

Ornith-1.0不只是对话模型，它被设计为Agent。支持的Agent框架包括：

开源Harness：基于Harbor/Terminus-2的终端Agent框架
OpenCode：国产Coding Agent框架，实测兼容Ornith-1.0-35B
Ollama + Continue.dev：VSCode中直接调用本地Ornith模型

实测体验：35B GGUF版在RTX 4090上的单文件代码生成速度约15-25 token/s，能在合理时间内完成中等复杂度任务。多文件项目建议用397B FP8服务器部署。

四、与Claude Code / Cursor 对比选型

4.1 核心对比

维度	Ornith-1.0	Claude Code (Opus 4.8)	Cursor
模型开源	✅ MIT许可	❌ 闭源API	❌ 闭源
本地部署	✅ GGUF + Ollama	❌ 必须联网	❌ 必须联网
使用成本	免费（自己显卡）	$5-25/M tokens	$20/月
离线可用	✅	❌	❌
SWE-Bench Verified	82.4	87.6	~80（依模型而定）
一键IDE集成	需配置	Claude Code原生	原生集成
多文件重构	中等	极强	强
中文支持	良好	良好	良好

4.2 选型建议

选Ornith-1.0的场景：

预算敏感（学生、独立开发者）
代码涉及隐私/商业机密不适合上传云端
国内网络访问Claude不稳定
需要24/7自由调用不担心额度用完
做Agent研究需要可控、可调整的开源方案

选Claude Code/Cursor的场景：

团队已有成熟付费流程，不care每月$200
需要处理超大型代码库（百万行级）的跨文件重构
需要Dynamic Workflows等独占特性
追求极致的开箱即用体验

一个务实的组合方案：Ornith-1.0-35B本地日常开发 + Claude Code按需高强度任务。 90%的日常编码本地跑Ornith，10%的硬骨头请Claude出山。

总结

Ornith-1.0不是另一个"号称最强的开源模型"——它带着一个很清晰的差异化定位：用RL训练Agent的决策流程，不只是代码质量。 这个定位让它在一个参数规模下能干过更大模型，也让它天然适配终端Agent场景。

对于务实的开发者：35B GGUF版已经是今天性价比最高的本地Coding Agent方案。9B版让笔记本也能有正经的Agent编程体验。397B版告诉你"开源Coding Agent的天花板在哪"——SWE-Bench Verified 82.4分，距离Claude Opus不到5分。

下载，跑起来，换掉那个烧月费的工具。

参考来源：

Ornith-1.0 GitHub 仓库（官方一手，MIT许可）
HuggingFace: Ornith-1.0 Collection（官方一手，含GGUF量化版）
HuggingFace: Ornith-1.0-35B-GGUF（GGUF下载页）
DeepReinforce官网
2026 AI Coding工具一站配齐 - 博客园（国产AI编码工具实测对比）
2026 主流AI编码全景对比 - CSDN

📖 延伸阅读

📰 自游人日报 2026.6.27

🧠 DeepSeek DSpark 全解析 — 推理效率革命
🤖 UI-TARS 桌面自动化 — Agent双胞胎对比
🧠 MRAgent 记忆框架 — Agent的成本账

原文链接： https://www.17you.com/tool/ornith-1-agent-coding/ 已复制！

脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

Ornith-1.0评测：自进化开源Coding Agent，本地跑出SWE-Bench 82.4分

引言

一、核心概念：RL怎么训练一个Coding Agent

1.1 传统做法的死胡同

1.2 Ornith的突破：RL联合优化代码+脚手架

二、Benchmark全面解读

2.1 四版本性能速览

2.2 397B旗舰：SWE-Bench Verified 82.4分

2.3 35B MoE：性价比之王

2.4 9B Dense：笔记本能跑的Coding Agent

三、本地部署实战

3.1 GGUF量化版：三条命令跑起来

3.2 硬件要求速查

3.3 作为Coding Agent使用

四、与Claude Code / Cursor 对比选型

4.1 核心对比

4.2 选型建议

总结

📖 延伸阅读

相关内容

目录