首页 > 其他分享 >评价指标:相似度、GAS消耗

评价指标:相似度、GAS消耗

时间:2023-02-22 11:24:41浏览次数:46  
标签:BLEU 词组 GAS 消耗 候选 指标 ROUGE 评价 文本

【代码注释自动生成方法综述】

这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.

BLEU指标[​[88](javascript:void(0);)^]^:其全称是bilingual evaluation understudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡量文本的流畅性.不难看出,BLEU指标的取值越高,即n元词组的重合程度越高,则认为候选文本的质量也越高.

但BLEU指标更偏重查准率,而忽略了查全率(即参考文本中未在候选文本中出现的n元词组).虽然可以通过引入长度惩罚因子(brevity penalty)来惩罚候选文本过短的问题,但从整体上来看,BLEU评测指标更偏向于较短的候选文本.

(2) METEOR指标[​[89](javascript:void(0);)^]^:其全称是metric for evaluation of translation with explicit ordering.其使用Word Net等知识源来扩充同义词集,同时考虑了单词的词形.在评价句子流畅度时,使用了chunk(即候选文本和参考文本能够对齐的,并且空间排列上连续的单词形成一个chunk)的概念,chunk的数目越少,意味着每个chunk的平均长度越长,即候选文本和参考文本的语序越一致.

(3) ROUGE指标[​[90](javascript:void(0);)^]^:其全称是recall-oriented understudy for gisting evaluation.与BLEU指标相似,但BLEU指标面向的是查准率,而ROGUE指标面向的是查全率.该指标在文本摘要研究中被经常使用,又可以细分为ROUGE-N和ROUGE-L.其中,ROUGE-N指标以n元词组为基本单元,计算两个句子之间n元词组的重合率.而ROUGE-L指标与ROUGE-N指标相似,但是针对的是最长公共子序列(longest common subsequence)的重合率.

(4) CIDER指标[​[91](javascript:void(0);)^]^:其全称是consensus-based image description evaluation.一般用于图像字幕生成问题.该评测指标可以认为是BLEU指标和向量空间模型的集合.其将每个句子视为文档,然后计算出n元词组的tf-idf值,通过余弦夹角计算出候选文本和参考文本之间的相似度.最后,基于不同长度的n元词组计算出平均取值,并作为最终结果.

不难看出,BLEU、METOR和ROUGE指标的取值范围介于0~1之间,并经常以百分比的形式给出.而CIDER指标对的取值范围并不在0~1之间,因此经常以实数的形式给出.

GAS消耗

和Solidity对比

邀请人测试

标签:BLEU,词组,GAS,消耗,候选,指标,ROUGE,评价,文本
From: https://www.cnblogs.com/myfriend/p/evaluation-indicators-similarity-gas-consumption-zxf4to

相关文章

  • 机器学习评价指标之回归问题
    1.平均绝对误差:MAE(MeanAbsoluteError)2.均方误差:MSE(MeanSquaredError)3.均方根误差:RMSE(RootMeanSquardError)4.决定系数:R2(R-Square)5.校正决定系数(AdjustedR-......
  • 生成模型的评价指标:PSNR, SSIM, RMSE, MSE, NMI, IScore
    20230220PSNRPSNR(PeakSignal-to-NoiseRatio)峰值信噪比PSNR越大,模型越好SSIMSSIM的大小介于-1~1,SSIM越大,模型越好结构相似性量测法比NRMSE更能表现图一、图三之......
  • NETDMIS5.0位置度评价2023
    用于控制被测要素(点、线、面)对基准的位置误差。根据零件的功能要求,位置度公差分为给定一个方向、给定两个方向、任意方向三种。1.根据基准体系先测量位置度的基准......
  • WebLogAspect
    package***;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.serializer.SerializerFeature;importcom.google.common.collect.Maps;importlombo......
  • 写给一位姐姐的,同时也是一段评价
    不知不觉写了这么多,你若是有或许是自我感动的意愿,不妨就看下去吧。或许是不再想被模糊的情感纠缠,我总是喜欢去解构它们。有些类似尼采曾经对修行者的分析吧,所谓的修行者......
  • 安防视频监控场景中,如何有效降低4G网卡的流量消耗?
    目前基于智慧城市与安防监控等应用需求的不断增长,视频监控的应用也日益增加。多数场景基于专线、政务网、局域网等搭建网络传输通道,但是也有一些项目,无法通网通电到现场,这......
  • [转]领导力评价
    本文转自:https://www.wjx.cn/jq/18260686.aspx           ......
  • 评价类-1.层次分析法
    写在前面          开始准备美赛/已经晚了阿喂         写博客一方面是为了记录学习的模型和算法(不知道为什么最近的记忆力越来越......
  • 评价返现,实现用户留存公众号
    大家好,我是小悟​如果你刚好经营着一家网店,也刚好运营着一个公众号,最好是有开通支付和现金红包功能的。那就可以通过评价返现的功能,有机会将用户留存在你的公众号上,便于精准......
  • 搜索排序——搜索评价指标
    搜索排序一直是信息检索的研究重点,搜索排序的流程主要分为:召回层、粗排层、精排层、重排层,重排层主要考虑的是相关业务诉求和多样性要求,偏业务规则,此处我们只关注精排模型......