ANAH: Analytical Annotation of Hallucinations in Large Language Models

时间：2024-09-17 11:23:05浏览次数：14

标签：注释 Language Models 生成式 Large LLM 幻觉 Annotation ANAH

本文是LLM系列文章，针对《ANAH: Analytical Annotation of Hallucinations in Large Language Models》的翻译。

ANAH：大型语言模型中幻觉的分析注释

摘要
1 引言
2 数据集构造
3 幻觉注释器
4 实验
5 相关工作
6 结论和未来工作
7 局限性

摘要

减少大型语言模型（LLM）的“幻觉”问题对于其广泛应用至关重要。对幻觉进行全面而精细的测量是治理这个问题的第一步，但在社区中尚未得到充分探索。因此，我们提出了 ANAH，这是一个双语数据集，可在生成问答中提供 LLM 中幻觉的分析注释。我们数据集中的每个答案句子都经过严格的注释，涉及参考片段的检索、幻觉类型的判断以及幻觉内容的校正。ANAH 由 ∼4.3k LLM 响应的 ∼12k 句子级注释组成，涵盖 700 多个主题，由人机回环管道构建。由于幻觉注释的精细粒度，我们可以定量地确认 LLM 的幻觉在答案中逐渐积累，并使用 ANAH 来训练和评估幻觉注释者。我们对研究生成式和判别性注释者进行了广泛的实验，结果表明，尽管目前的开源 LLM 在细粒度幻觉注释方面存在困难，但用 ANAH 训练的生成式注释器可以超越所有开源 LLM 和 GPT3.5，获得与 GPT4 竞争的性能，并在看不见的问题上表现出更好的泛化能力。

1 引言

2 数据集构造

3 幻觉注释器

标签：注释,Language,Models,生成式,Large,LLM,幻觉,Annotation,ANAH
From： https://blog.csdn.net/c_cpp_csharp/article/details/142312508

大模型书籍推荐：从头开始构建一个大型语言模型（含PDF免费）《Build a Large Language Mode
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建......
代数模型（Algebraic Models）---线性规划------+ 案例 + Python源码求解（见文中）
目录一、代数模型（AlgebraicModels）详解1.1什么是代数模型？1.2代数模型的基本形式1.3安装所需要的Python包--运行下述案例1.4代数模型的应用案例案例1：市场供需平衡模型Python求解代码Python求解结果如下图：案例2：运输问题中的线性规划模型进行数学建模分析1.目标函数2.......
P10471 最大异或对 The XOR Largest Pair（01trie）
#include<bits/stdc++.h>usingnamespacestd;#definexfirst#defineysecondtypedefpair<int,int>PII;typedeflonglongll;typedefunsignedlonglongull;typedefunsignedintuint;typedefvector<string>VS;typedefvector<int>......
LIN476H5 F 2024 Language Universals
LIN476H5F2024LanguageDiversityandLanguageUniversalsHomeworkAssignment1Due:Fr09/20,by11:59pSubmit yourhomework onQuercus. Neat typing is required.To type IPA symbols, consider one of the following tools:- Online IPAkeyboar......
文心智能体平台、Coze、腾讯元器、ModelScopeGPT和星火大模型的比较，你选哪个？
平台文心智能体平台（百度）Coze（字节跳动）腾讯元器（腾讯）ModelScopeGPT（阿里云）星火大模型（科大讯飞）背景与开发方百度，中国领先的搜索引擎和AI公司字节跳动，全球知名的互联网科技公司腾讯，中国领先的互联网综合服务提供商阿里云，阿里巴巴集团旗下的云计算服务提供商科大讯飞，中国领先......
通过ModelScope开源Embedding模型将图片转换为向量
本文介绍如何通过ModelScope魔搭社区中的视觉表征模型将图片转换为向量，并入库至向量检索服务DashVector中进行向量检索。ModelScope魔搭社区旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单。ModelScope魔搭......
convnext_xxlarge.clip_laion2b_soup_ft_in12k timm模型库
Modelcardforconvnext_xxlarge.clip_laion2b_soup_ft_in12kAConvNeXtimageclassificationmodel.CLIPimagetowerweightspretrainedin OpenCLIP onLAIONandfine-tunedonImageNet-12kbyRossWightman.PleaseseerelatedOpenCLIPmodelcardsformored......
E. Klee's SUPER DUPER LARGE Array!!!
原题链接题解发现随着\(i\)越大，绝对符号内的值越大，因此具有单调性，可以应用二分查找找离0最近的\(i\)而值可以用等差数列求和公式快速求出code#include<bits/stdc++.h>usingnamespacestd;/*mt19937_64rnd(time(0));#definedoublelongdouble#definelowbit(x)......
TPT（论文解读）：Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Langua
Comment:NeurIPS2022视觉语言模型中用于zero-shot泛化的测试期间提示调优摘要预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示，而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的，但是......
A Comprehensive Survey of Accelerated Generation Techniques in Large Language Mo
本文是LLM系列文章，针对《AComprehensiveSurveyofAcceleratedGenerationTechniquesinLargeLanguageModels》的翻译。大型语言模型中加速生成技术的全面调查摘要1引言2推测解码3早退4非自回归模型5讨论和局限性6结论摘要尽管在大型语言模型（L......

ANAH: Analytical Annotation of Hallucinations in Large Language Models

ANAH：大型语言模型中幻觉的分析注释

摘要

1 引言

2 数据集构造

3 幻觉注释器

相关文章

赞助商

阅读排行