Heretic:全自动移除LLM审查机制的开源工具,无需训练低成本对齐

Heretic 全自动移除 transformer 架构语言模型审查机制(即“安全对齐”/censorship) 的工具,无需昂贵的模型后训练流程

全自动解除模型审查

Heretic 针对带“安全对齐”(内容审查、拒绝回答敏感问题)的大语言模型,通过技术手段移除其审查机制,同时最大程度保留原模型的能力:

  • 核心技术:结合「定向消融(Directional Ablation,也叫“abliteration”)」的高级实现(基于Arditi et al. 2024、Lai 2025相关研究),以及由 Optuna 驱动的 TPE 算法参数优化器;
  • 自动化逻辑:通过“同时最小化模型拒绝回答次数 + 最小化与原模型的 KL 散度”,自动寻找最优的消融参数——无需用户理解 transformer 内部原理,只需运行命令行即可完成;
  • 效果:生成的去审查模型,在“拒绝回答敏感提示词”的抑制效果上媲美人类专家手动调整的版本,且 KL 散度更低(意味着对原模型能力的破坏更小)。
  • 低门槛使用:任何会运行命令行程序的用户都能操作,无需深度学习底层知识;
  • 模型兼容性:支持大多数稠密型语言模型(含多模态模型)、多种 MoE 架构模型(暂不支持 SSM/混合模型、非均质层模型、部分新型注意力机制模型);
  • 内置评估能力:可自动评估去审查后模型的“拒绝率”和 KL 散度,验证效果(如命令 heretic --model 原模型 --evaluate-model 去审查后模型);
  • 硬件适配:启动时会自动基准测试系统,确定最优批次大小以最大化利用硬件资源(例:RTX 3090 上处理 Llama-3.1-8B-Instruct 约 45 分钟);
  • 灵活配置:支持命令行参数或配置文件(如 config.default.toml)调整参数,也可直接用默认配置全自动运行。
  • 解决了传统“模型去审查”需要人工调参、专业知识门槛高、易破坏原模型能力的问题
  • 实现无人工干预、高效果、低能力损耗的语言模型审查移除
  • 社区已基于它生成并发布了超 1000 个去审查模型。

Heretic 项目地址

https://github.com/p-e-w/heretic

核心社区渠道:

  1. Discord 社区(官方即时交流渠道)
    链接: https://discord.gg/gdXc48gSyT
    标识:项目 README 置顶展示该 Discord 徽章,是官方核心的实时交流、问题反馈、社区协作平台。
  2. Hugging Face 社区(模型发布 / 分享核心阵地)
    官方组织主页: https://huggingface.co/heretic-org
    官方模型合集(Heretic 处理后的去审查模型): https://huggingface.co/collections/p-e-w/the-bestiary
    社区衍生模型检索: https://huggingface.co/models?other=heretic (超 1000 个社区发布的 Heretic 处理模型)
    HauhauCS’s models: https://huggingface.co/HauhauCS/models
  3. 第三方社区讨论阵地(非官方,但核心用户聚集)
    Reddit r/LocalLLaMA 板块: https://old.reddit.com/r/LocalLLaMA/ (搜索关键词「Heretic」可找到大量用户实测、交流内容)

Qwen3.5 去审查版

Qwen3.5-35B-A3B支持文本、图片、视频多模态

原文链接: https://www.17you.com/programming/heretic-remove-llm-censorship-automated-tool/ 已复制!
编程和技术

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容