LLM 幻觉检测工具
目录
以下几款开源工具供参考
UQLM
提供五类响应级评分器,均返回0-1的置信度分数(分数越高,幻觉/错误概率越低),各类型在延迟、成本、兼容性上各有特点,适配不同使用场景,且均支持LangChain生态的各类Chat Model。
- 核心定位:LLM 不确定性量化库,提供多维度置信度评分
使用场景:
幻觉风险预警、输出可信度排序、低资源校验
开源地址: https://github.com/cvs-health/uqlm
LettuceDetect
- 细粒度:Token 级幻觉片段定位,4K 上下文窗口
- 核心:ModernBERT 架构、轻量、一行代码加载
- 场景:RAG 系统、长文本生成、内容审核
- 开源:https://github.com/KRLabsOrg/LettuceDetect
DeepEval
- 细粒度:句子 / 片段 / 上下文矛盾三级检测,可自定义粒度
- 核心:3 行代码、双模型架构、95%+ 准确率、支持自定义模型
- 场景:工业化幻觉防护、LLM 输出质量监控、快速集成
- 开源:https://github.com/confident-ai/deepeval
finLLM-Eval(腾讯云)
- 细粒度:金融场景专用,逻辑一致性 + 事实准确性 + 数据准确性三级检测
- 核心:国内首个无 GroundTruth 金融数据准确性评测方案
- 场景:金融大模型幻觉评测、合规校验、风控场景
- 开源:https://github.com/Tencent/finLLM-Eval
RefChecker(亚马逊上海 AI 实验室)
- 细粒度:知识三元组级,可定位 “哪条事实错了”
- 核心:覆盖零 / 噪声 / 精准上下文,内置 2.1k 人工标注数据,支持主流 LLM
- 场景:RAG 幻觉、摘要事实核查、细粒度错误归因
- 开源:https://github.com/amazon-science/refchecker
原文链接:
https://www.17you.com/tool/ai%E5%B9%BB%E8%A7%89%E8%AF%84%E4%BC%B0%E5%B7%A5%E5%85%B7/
已复制!
脚本编程和自动化工具
寻找技术支持帮助和技术合伙人一起搞事。