首页 > 其他分享 >Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency

Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency

时间:2024-06-17 09:58:33浏览次数:26  
标签:Financial Language Models 领域 注释 特定 LLM 数据 工作者

本文是LLM系列文章,针对《Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency》的翻译。

作为财务数据注释器的大型语言模型:有效性和效率研究

摘要

由于缺乏领域专家和使用成本较高,在金融领域收集标记数据集具有挑战性。虽然大型语言模型(LLM)在一般领域数据集的数据注释任务中表现出了显著的性能,但其在特定领域数据集上的有效性仍有待探索。为了解决这一差距,我们研究了LLM作为提取财务文档中关系的有效数据注释器的潜力。我们将三个LLM(GPT-4、PaLM 2和MPT Instruction)生成的注释与专家注释器和众包工作者进行了比较。我们证明,目前最先进的LLM可以充分替代非专家众包工作者。我们使用各种提示和参数设置来分析模型,发现通过提供属于每个关系组的特定示例来自定义这些组的提示是至关重要的。此外,我们引入了一个可靠性指数(LLM RelIndex),用于识别可能需要专家关注的输出。最后,我们进行了大量的时间、成本和错误分析,并为在特定领域的设置中收集和使用自动注释提供了建议。

引言

相关工作

数据集

实验

结果

讨论

局限性

结论

在这项研究中,我们通过比较三种不同大小的LLM,展示了使用LLM作为非专家众包工作者执行特定领域任务的强大替代方案的显著潜力。由于金融领域中有大量非结构化文档,利用LLM进

标签:Financial,Language,Models,领域,注释,特定,LLM,数据,工作者
From: https://blog.csdn.net/c_cpp_csharp/article/details/139733986

相关文章

  • (半成品) Lesson 1+2 in Numerical methods for Navier-Stokes equations and phase-fie
    Lesson1+2inNumericalmethodsforNavier-Stokesequationsandphase-fieldmodels梯度流从自由能开始一个常见的自由能是这样定义的:\[E(\phi)=\int_{\Omega}\frac{1}{2}\left|\nabla\phi\right|^2+F(\phi)\,d\Omega\]其中,\(\nabla\)是梯度算子,\(\phi\)是标......
  • ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models
    本文是LLM系列文章,针对《ALoRA:AllocatingLow-RankAdaptationforFine-tuningLargeLanguageModels》的翻译。ALoRA:为微调大型语言模型分配低秩自适应摘要1引言2相关工作3方法4实验5结论摘要参数有效微调(PEFT)在大语言模型时代因其有效性和效率而......
  • Aligning with Human Judgement: The Role of Pairwise Preference in Large Language
    本文是LLM系列文章,针对《AligningwithHumanJudgement:TheRoleofPairwisePreferenceinLargeLanguageModelEvaluators》的翻译。与人类判断相一致:配对偏好在大型语言模型评估者中的作用摘要1引言2LLM计算器校准的局限性3不确定性引导的成对偏好搜索4......
  • SentencePiece: A simple and language independent subword tokenizer and detokeniz
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 1Introduction 2SystemOverview  3LibraryDesign 3.1LosslessTokenization  3.2Efficientsubwordtrainingandsegmentation 3.3Vocabularyidmanagement 3.4Customi......
  • monaco-editor 的 Language Services
    我们是袋鼠云数栈UED团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。本文作者:修能这是一段平平无奇的SQL语法SELECTid,sum(name)FROMstudentGROUPBYidORDERBYid;如果把这段代码放到monaco-editor(@......
  • 论文解读——AAMAS2024《OPEx: A Large Language Model-Powered Framework for Embodi
    一、研究背景  具身指令执行(EmbodiedInstructionFollowing,EIF)是指在一个特定的物理或虚拟环境中,使能自主代理(如机器人或虚拟代理)根据自然语言指令来执行复杂的任务。这种研究领域集中于探索自然语言理解与机器执行能力的结合,尤其是在模拟家庭或日常环境中,如何使代理......
  • Hungry Hungry Hippos Towards Language Modeling with State Space Models
    目录概H3代码FuD.Y.,DaoT.,SaabK.K.,ThomasA.W.,RudraA.andReC.Hungryhungryhippos:towardslanguagemodelingwithstatespacemodels.2022.概Mamba系列第五作:H3.H3感觉H3是之前的linearattention和SSM的一个结合,它所做的只是把line......
  • LISA: Reasoning Segmentation via Large Language Model
    Motivation&Abs现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。新任务:reasoningsegmentation,模型需要根据给定的复杂/具有隐含意义的文本输出相应的segmask。新的benchmark:包含1000张左右图像的数据集(image-instruction-mask)。模型:LISA,既有LLM的语言生成能力......
  • On the Parameterization and Initialization of Diagonal State Space Models
    目录概符号说明S4D代码GuA.,GuptaA.,GoelK.andReC.Ontheparameterizationandinitializationofdiagonalstatespacemodels.NeurIPS,2022.概Mamba系列第四作:S4D.符号说明\(u(t)\in\mathbb{R}\),输入信号;\(x(t)\in\mathbb{R}^N\),中间状态;\(......
  • CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based M
    本文是LLM系列文章,针对《CBT-LLM:AChineseLargeLanguageModelforCognitiveBehavioralTherapy-basedMentalHealthQuestionAnswering》的翻译。CBT-LLM:一个基于认知行为治疗的心理健康问答的中文大语言模型摘要1引言2相关工作3方法4实验5结论和未......