LLM 幻觉检测工具 - 自游人（一起游） - 专注AI旅行与赚钱技术的自由行社区 17you.com

辉哥收录于实用工具与脚本

2026-02-22 2026-04-09 约 700 字预计阅读 2 分钟

目录

以下几款开源工具供参考

UQLM

提供五类响应级评分器，均返回0-1的置信度分数（分数越高，幻觉/错误概率越低），各类型在延迟、成本、兼容性上各有特点，适配不同使用场景，且均支持LangChain生态的各类Chat Model。

核心定位：LLM 不确定性量化库，提供多维度置信度评分
使用场景：
幻觉风险预警、输出可信度排序、低资源校验
开源地址： https://github.com/cvs-health/uqlm

LettuceDetect

细粒度：Token 级幻觉片段定位，4K 上下文窗口
核心：ModernBERT 架构、轻量、一行代码加载
场景：RAG 系统、长文本生成、内容审核
开源：https://github.com/KRLabsOrg/LettuceDetect

DeepEval

细粒度：句子 / 片段 / 上下文矛盾三级检测，可自定义粒度
核心：3 行代码、双模型架构、95%+ 准确率、支持自定义模型
场景：工业化幻觉防护、LLM 输出质量监控、快速集成
开源：https://github.com/confident-ai/deepeval

finLLM-Eval（腾讯云）

细粒度：金融场景专用，逻辑一致性 + 事实准确性 + 数据准确性三级检测
核心：国内首个无 GroundTruth 金融数据准确性评测方案
场景：金融大模型幻觉评测、合规校验、风控场景
开源：https://github.com/Tencent/finLLM-Eval

RefChecker（亚马逊上海 AI 实验室）

细粒度：知识三元组级，可定位 “哪条事实错了”
核心：覆盖零 / 噪声 / 精准上下文，内置 2.1k 人工标注数据，支持主流 LLM
场景：RAG 幻觉、摘要事实核查、细粒度错误归因
开源：https://github.com/amazon-science/refchecker

原文链接： https://www.17you.com/tool/ai%E5%B9%BB%E8%A7%89%E8%AF%84%E4%BC%B0%E5%B7%A5%E5%85%B7/ 已复制！

脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

相关内容