Heretic：全自动移除LLM审查机制的开源工具，无需训练低成本对齐

辉哥收录于编程技巧项目实战和 AI技术教程

2026-03-16 2026-03-16 约 1000 字预计阅读 2 分钟 - 次阅读

Heretic 全自动移除 transformer 架构语言模型审查机制（即“安全对齐”/censorship） 的工具，无需昂贵的模型后训练流程

全自动解除模型审查

Heretic 针对带“安全对齐”（内容审查、拒绝回答敏感问题）的大语言模型，通过技术手段移除其审查机制，同时最大程度保留原模型的能力：

核心技术：结合「定向消融（Directional Ablation，也叫“abliteration”）」的高级实现（基于Arditi et al. 2024、Lai 2025相关研究），以及由 Optuna 驱动的 TPE 算法参数优化器；
自动化逻辑：通过“同时最小化模型拒绝回答次数 + 最小化与原模型的 KL 散度”，自动寻找最优的消融参数——无需用户理解 transformer 内部原理，只需运行命令行即可完成；
效果：生成的去审查模型，在“拒绝回答敏感提示词”的抑制效果上媲美人类专家手动调整的版本，且 KL 散度更低（意味着对原模型能力的破坏更小）。
低门槛使用：任何会运行命令行程序的用户都能操作，无需深度学习底层知识；
模型兼容性：支持大多数稠密型语言模型（含多模态模型）、多种 MoE 架构模型（暂不支持 SSM/混合模型、非均质层模型、部分新型注意力机制模型）；
内置评估能力：可自动评估去审查后模型的“拒绝率”和 KL 散度，验证效果（如命令 heretic --model 原模型 --evaluate-model 去审查后模型）；
硬件适配：启动时会自动基准测试系统，确定最优批次大小以最大化利用硬件资源（例：RTX 3090 上处理 Llama-3.1-8B-Instruct 约 45 分钟）；
灵活配置：支持命令行参数或配置文件（如 config.default.toml）调整参数，也可直接用默认配置全自动运行。
解决了传统“模型去审查”需要人工调参、专业知识门槛高、易破坏原模型能力的问题
实现无人工干预、高效果、低能力损耗的语言模型审查移除
社区已基于它生成并发布了超 1000 个去审查模型。

Heretic 项目地址

https://github.com/p-e-w/heretic

核心社区渠道：

Discord 社区（官方即时交流渠道）
链接： https://discord.gg/gdXc48gSyT
标识：项目 README 置顶展示该 Discord 徽章，是官方核心的实时交流、问题反馈、社区协作平台。
Hugging Face 社区（模型发布 / 分享核心阵地）
官方组织主页： https://huggingface.co/heretic-org
官方模型合集（Heretic 处理后的去审查模型）： https://huggingface.co/collections/p-e-w/the-bestiary
社区衍生模型检索： https://huggingface.co/models?other=heretic （超 1000 个社区发布的 Heretic 处理模型）
HauhauCS’s models: https://huggingface.co/HauhauCS/models
第三方社区讨论阵地（非官方，但核心用户聚集）
Reddit r/LocalLLaMA 板块： https://old.reddit.com/r/LocalLLaMA/ （搜索关键词「Heretic」可找到大量用户实测、交流内容）

Qwen3.5 去审查版

Qwen3.5-35B-A3B支持文本、图片、视频多模态

原文链接： https://www.17you.com/programming/heretic-remove-llm-censorship-automated-tool/ 已复制！

编程和技术

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

Heretic：全自动移除LLM审查机制的开源工具，无需训练低成本对齐

全自动解除模型审查

Heretic 项目地址

核心社区渠道：

Qwen3.5 去审查版

相关内容

目录