Freellmapi:16 家免费 API 一个端点全聚合,月省 17 亿 Token
你的免费token矿
先说一个反直觉的事实:目前市面上至少有16家AI厂商提供免费API额度,加在一起每月超过17亿token。单拿其中任何一家都是"玩具级",但如果你能把它们叠在一起?
GitHub上2.0K+ stars的开源项目 FreeLLMAPI,干的就这一件事。1
核心原理:一张网捕所有的鱼
FreeLLMAPI本质上是一个本地运行的代理服务器,它做的事情极度简单但又极度聪明:
- 你把它部署在本地(Docker一行命令)
- 你填入各家的免费API Key
- 它暴露一个标准的
/v1/chat/completions端点 - 你在任何OpenAI兼容的客户端里把
base_url指向它 - 它自动选择最优提供商、自动处理速率限制、自动故障转移
架构设计巧妙地解决了一个讨厌的问题:各家免费额度的速率限制各不相同。Google Gemini一天1500次请求,Groq一分钟30次,Cerebras一分钟30次……手动管理这种事,比管理多张信用卡还款日还累。2
FreeLLMAPI的router会追踪每个Key的用量、冷却时间,一旦当前提供商被限速(返回429),立即切换到下一个可用的模型——最多支持20级回退链。
16家提供商一览
截至2026年6月,FreeLLMAPI聚合了以下16家免费API提供商:3
| 提供商 | 代表性免费模型 | 速率限制 |
|---|---|---|
| Gemini 2.5 Flash/Pro | 1,500 RPD / 100万token/天 | |
| Groq | Llama 3.3/4, GPT-OSS, Qwen3 | 30 RPM |
| Cerebras | Qwen3 235B | 30 RPM |
| NVIDIA NIM | 多种模型 | 40 RPM |
| Mistral | Large 3, Codestral | 2 RPM / 50K token/分 |
| OpenRouter | 21个免费模型 | 各模型不同 |
| GitHub Models | GPT-4.1, GPT-4o | 有限制 |
| Cohere | Command R+, Command-A | 试用额度 |
| Cloudflare | Kimi K2, GLM-4.7, GPT-OSS | 10,000 Neurons/天 |
| HuggingFace | DeepSeek V4, Qwen3 | 有限制 |
| Z.ai (智谱) | GLM-4.5, GLM-4.7 Flash | 有限制 |
| Ollama Cloud | GLM-4.7, Kimi K2, Qwen3 | 有限制 |
| Kilo Gateway | :free routes | 匿名可用 |
| Pollinations | GPT-OSS 20B | 匿名可用 |
| LLM7 | GPT-OSS, Llama 3.1 | 匿名可用 |
| OVH AI Endpoints | Qwen3.5 397B, GPT-OSS | 匿名可用 |
| OpenCode Zen | DeepSeek V4 Flash, Nemotron | 促销期 |
总计约76个免费模型,从小而快的Llama 3.2-1B到GPT-4.1级别的能力都有。4
一行接入,所有工具通吃
接入Cursor/Claude Code
auto 模式让Router自动选择当前最优的可用模型。你也可以指定特定模型,比如 gemini-2.5-flash 或 gpt-4.1。
接入任意OpenAI SDK
| |
Anthropic API兼容
从v0.2起,FreeLLMAPI支持Anthropic Messages API(/v1/messages),这意味着 Claude Code可以直接跑在免费模型池上,无需任何中间层。5 Claude家族模型名(opus/sonnet/haiku)会自动映射到 auto 模式。
智能路由和故障转移是怎么工作的
Router的决策逻辑:
- 你的请求带着
model: "auto"到达 - Router检查各Provider当前的速率限制状态
- 按你设置的权重和优先级选择最佳Provider
- 如果返回429(限速)或5xx(故障),自动跳过,冷却该Key
- 试下一个,最多20次回退
- 对所有请求追踪per-key用量,确保不超限
这意味着只要有一个Provider可用,你的请求就不会失败。16家Provider同时挂掉的概率——基本为零。6
部署:三分钟上手
| |
然后去各Provider官网申请免费API Key(都免费),粘贴进来,刷新模型列表即可。
适用场景和限制
最适合:
- 个人开发者日常编码(Cursor/Claude Code集成)
- 轻量Agent开发和测试
- 学习LLM应用开发,不想烧API费
- 个人项目和小型实验
不适合:
- 生产环境(免费额度不稳定、服务条款限制)
- 超低延迟需求(多级回退可能增加延迟)
- 大批量处理(总量虽大,但速率限制严格)
FreeLLMAPI官方声明这是"个人实验用途"(Personal experimentation only),别拿来做商业SaaS后端。但对于个人开发者来说,每月17亿token的实验预算,够你把所有side project都跑一遍了。7
你的零成本AI工作流
我的推荐配置:
| |
一个月下来,账单是 $0.00。8
📖 延伸阅读
- 🔧 GLM-5.2 零成本部署 — 免费LLM落地实操
- 📧 Agent专属邮箱 — 免费API配套身份
- 🤖 UI-TARS桌面自动化 — 免费算力驱动Agent
tashfeenahmed. “freellmapi - GitHub Repository”. 2026年6月. https://github.com/tashfeenahmed/freellmapi ↩︎
CSDN. “FreeLLMAPI - 免费模型聚合代理”. 2026年6月21日. https://blog.csdn.net/Crown_22/article/details/160653914 ↩︎
codeKK. “freellmapi OpenAI-compatible proxy”. 2026年6月24日. https://p.codekk.com/detail/typescript/tashfeenahmed/freellmapi ↩︎
FreeLLMAPI Official. “Model Catalog”. https://freellmapi.co ↩︎
tashfeenahmed. “freellmapi README - Anthropic Messages API section”. https://raw.githubusercontent.com/tashfeenahmed/freellmapi/main/README.md ↩︎
FreeLLMAPI文档. “How it works - Smart routing and fallback”. https://github.com/tashfeenahmed/freellmapi#how-it-works ↩︎
FreeLLMAPI GitHub. “Disclaimer section”. https://github.com/tashfeenahmed/freellmapi#disclaimer ↩︎
各提供商官网定价页:Google AI Studio (https://ai.google.dev), Groq (https://groq.com), Cerebras (https://cerebras.ai), GitHub Models (https://github.com/marketplace/models), Z.ai (https://docs.z.ai), Cloudflare Workers AI (https://developers.cloudflare.com/workers-ai/platform/pricing/) ↩︎
如果你也对文章内容或者分享的资源和机会有兴趣,欢迎联系我。
相关内容
- GLM-5.2 零成本部署指南:从 Cloudflare Workers AI 到本地 RTX 4090
- DeepSeek DSpark 全解析:推测解码如何让 V4 推理快 4 倍
- GLM-5.2 本地部署实战:M3 Ultra 跑出 21.6 Tok/S
- Self-Harness:让AI Agent学会自我修复的框架
- 小米MiMo 100万亿免费Token 全球开发者领取指南
- 免费LLM API资源整理
