LLM 幻觉检测工具

以下几款开源工具供参考

UQLM

提供五类响应级评分器,均返回0-1的置信度分数(分数越高,幻觉/错误概率越低),各类型在延迟、成本、兼容性上各有特点,适配不同使用场景,且均支持LangChain生态的各类Chat Model。

  • 核心定位LLM 不确定性量化库,提供多维度置信度评分
    使用场景:
    幻觉风险预警、输出可信度排序、低资源校验
    开源地址: https://github.com/cvs-health/uqlm

LettuceDetect

  • 细粒度Token 级幻觉片段定位,4K 上下文窗口
  • 核心:ModernBERT 架构、轻量、一行代码加载
  • 场景:RAG 系统、长文本生成、内容审核
  • 开源https://github.com/KRLabsOrg/LettuceDetect

DeepEval

  • 细粒度句子 / 片段 / 上下文矛盾三级检测,可自定义粒度
  • 核心:3 行代码、双模型架构、95%+ 准确率、支持自定义模型
  • 场景:工业化幻觉防护、LLM 输出质量监控、快速集成
  • 开源https://github.com/confident-ai/deepeval

finLLM-Eval(腾讯云)

  • 细粒度金融场景专用,逻辑一致性 + 事实准确性 + 数据准确性三级检测
  • 核心:国内首个无 GroundTruth 金融数据准确性评测方案
  • 场景:金融大模型幻觉评测、合规校验、风控场景
  • 开源https://github.com/Tencent/finLLM-Eval

RefChecker(亚马逊上海 AI 实验室)

  • 细粒度知识三元组级,可定位 “哪条事实错了”
  • 核心:覆盖零 / 噪声 / 精准上下文,内置 2.1k 人工标注数据,支持主流 LLM
  • 场景:RAG 幻觉、摘要事实核查、细粒度错误归因
  • 开源https://github.com/amazon-science/refchecker
原文链接: https://www.17you.com/tool/ai%E5%B9%BB%E8%A7%89%E8%AF%84%E4%BC%B0%E5%B7%A5%E5%85%B7/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容