• 2024-07-24大模型应用开发——问答系统回答准确性评估的三类方法
    在开发了基于文档的问答系统之后,需要评估系统对问题回答的准确性,将系统的回答与正确答案进行比对并给出评分。我们实践了以下三类方法,最终对比发现,在评估系统回答的准确性时,用大模型来评估最有效。本文旨在给出大模型的prompt供参考,可以根据自己的需求调整。另两类方法仅作简
  • 2024-07-14从零入门NLP竞赛Task1学习记录
    一、魔搭平台操作流程首先,通过阅读文档,我按照相应步骤进入了魔搭平台,并在GPU环境下上传了数据和代码文件。在成功运行并跑通baseline后,我发现下载的压缩包和对应代码文件的具体用途目前还不甚明了,但我相信通过后续的学习,我会逐渐理解它们的作用。在等待过程中,我顺便了解了机器
  • 2024-07-06【大模型】衡量巨兽:解读评估LLM性能的关键技术指标
    衡量巨兽:解读评估LLM性能的关键技术指标博客标题:衡量巨兽:解读评估LLM性能的关键技术指标引言一、困惑度:语言模型的试金石1.1定义与原理1.2计算公式1.3应用与意义二、BLEU分数:翻译质量的标尺2.1定义与原理2.2计算方法2.3应用与意义三、其他评估指标:综合考量下的
  • 2024-06-03LLM基础知识
    LLM背景知识介绍1大语言模型(LLM)背景大语言模型(英文:LargeLanguageModel,缩写LLM)是一种人工智能模型,旨在理解和生成人类语言.大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。
  • 2023-07-10NLP应用 | thumt的bleu评估讲解
    传入参数:model:#defparse_args中,命令行输入模型名称,默认是"transformer"。parser.add_argument("--model",type=str,required=True,help="Nameofthemodel.")#defmain中#model_cls=models.get_model(args.model)返回thu
  • 2023-07-03机器翻译 | 机器翻译评测指标
    机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。事实上,在科学研究和工业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被广泛承认的评价标准为这个算法“打分”。这个分数不仅要体现出
  • 2023-04-06深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
    A.深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解1.基础指标简介机器学习的评价指标有精度、精确率、召回率、P-R曲线、F1值、TPR、FPR、ROC、AUC等指标,还有在生物领域常用的敏感性、特异性等指标。在分类任务中,各指标的计算
  • 2023-02-22评价指标:相似度、GAS消耗
    【代码注释自动生成方法综述】这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的
  • 2022-11-15机器翻译的评价指标
    BLEUBLEU方法是对待评价的句子和groundtruth的n个grams进行比较,并计算出匹配片段的个数,这些匹配片段与它们在句子中的位置无关,匹配片段数越多越好。在BLEU方法中,首先逐个
  • 2022-10-16使用基于注意力的编码器-解码器实现医学图像描述
    什么是图像描述图像描述是生成图像文本描述的过程。它使用自然语言处理和计算机视觉来为图像生成描述的文本字幕。一幅图像可以有很多个不同的描述,但是只要它正确地描述了
  • 2022-09-30机器翻译的大规模自动评估
    机器翻译的大规模自动评估在WMT22的21个翻译方向上评估了185个系统LanguagepairsofWMT22—Imagebytheauthor与2006年以来的每一年一样,机器翻译会议(W
  • 2022-08-30compare-mt:因为对系统进行评分还不够
    compare-mt:因为对系统进行评分还不够揭露你的分数背后的原因,以获得更有洞察力和可信度的评估。Generatedwith克雷永withtheprompt:“chartunderamagnifyingg
  • 2022-08-15NLG常用metric整理
    概览BLEU:基于比较词/短语的重叠比例,关注precisionRouge:基于比较词/短语的重叠比例,关注recallMeteor:基于比较词/短语的重叠比例,关注f1Distinct:Perplexity:BLEUBLEU