Heretic:全自动移除LLM审查机制的开源工具,无需训练低成本对齐
目录
Heretic 全自动移除 transformer 架构语言模型审查机制(即“安全对齐”/censorship) 的工具,无需昂贵的模型后训练流程
全自动解除模型审查
Heretic 针对带“安全对齐”(内容审查、拒绝回答敏感问题)的大语言模型,通过技术手段移除其审查机制,同时最大程度保留原模型的能力:
- 核心技术:结合「定向消融(Directional Ablation,也叫“abliteration”)」的高级实现(基于Arditi et al. 2024、Lai 2025相关研究),以及由 Optuna 驱动的 TPE 算法参数优化器;
- 自动化逻辑:通过“同时最小化模型拒绝回答次数 + 最小化与原模型的 KL 散度”,自动寻找最优的消融参数——无需用户理解 transformer 内部原理,只需运行命令行即可完成;
- 效果:生成的去审查模型,在“拒绝回答敏感提示词”的抑制效果上媲美人类专家手动调整的版本,且 KL 散度更低(意味着对原模型能力的破坏更小)。
- 低门槛使用:任何会运行命令行程序的用户都能操作,无需深度学习底层知识;
- 模型兼容性:支持大多数稠密型语言模型(含多模态模型)、多种 MoE 架构模型(暂不支持 SSM/混合模型、非均质层模型、部分新型注意力机制模型);
- 内置评估能力:可自动评估去审查后模型的“拒绝率”和 KL 散度,验证效果(如命令
heretic --model 原模型 --evaluate-model 去审查后模型); - 硬件适配:启动时会自动基准测试系统,确定最优批次大小以最大化利用硬件资源(例:RTX 3090 上处理 Llama-3.1-8B-Instruct 约 45 分钟);
- 灵活配置:支持命令行参数或配置文件(如
config.default.toml)调整参数,也可直接用默认配置全自动运行。 - 解决了传统“模型去审查”需要人工调参、专业知识门槛高、易破坏原模型能力的问题
- 实现无人工干预、高效果、低能力损耗的语言模型审查移除
- 社区已基于它生成并发布了超 1000 个去审查模型。
Heretic 项目地址
https://github.com/p-e-w/heretic
核心社区渠道:
- Discord 社区(官方即时交流渠道)
链接: https://discord.gg/gdXc48gSyT
标识:项目 README 置顶展示该 Discord 徽章,是官方核心的实时交流、问题反馈、社区协作平台。 - Hugging Face 社区(模型发布 / 分享核心阵地)
官方组织主页: https://huggingface.co/heretic-org
官方模型合集(Heretic 处理后的去审查模型): https://huggingface.co/collections/p-e-w/the-bestiary
社区衍生模型检索: https://huggingface.co/models?other=heretic (超 1000 个社区发布的 Heretic 处理模型)
HauhauCS’s models: https://huggingface.co/HauhauCS/models - 第三方社区讨论阵地(非官方,但核心用户聚集)
Reddit r/LocalLLaMA 板块: https://old.reddit.com/r/LocalLLaMA/ (搜索关键词「Heretic」可找到大量用户实测、交流内容)
Qwen3.5 去审查版
原文链接:
https://www.17you.com/programming/heretic-remove-llm-censorship-automated-tool/
已复制!
编程和技术
寻找技术支持帮助和技术合伙人一起搞事。