评价指标：相似度、GAS消耗

时间：2023-02-22 11:24:41浏览次数：54

【代码注释自动生成方法综述】

这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.

BLEU指标^[[88](javascript:void(0);)^]^:其全称是bilingual evaluation understudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡量文本的流畅性.不难看出,BLEU指标的取值越高,即n元词组的重合程度越高,则认为候选文本的质量也越高.

但BLEU指标更偏重查准率,而忽略了查全率(即参考文本中未在候选文本中出现的n元词组).虽然可以通过引入长度惩罚因子(brevity penalty)来惩罚候选文本过短的问题,但从整体上来看,BLEU评测指标更偏向于较短的候选文本.

(2) METEOR指标^[[89](javascript:void(0);)^]^:其全称是metric for evaluation of translation with explicit ordering.其使用Word Net等知识源来扩充同义词集,同时考虑了单词的词形.在评价句子流畅度时,使用了chunk(即候选文本和参考文本能够对齐的,并且空间排列上连续的单词形成一个chunk)的概念,chunk的数目越少,意味着每个chunk的平均长度越长,即候选文本和参考文本的语序越一致.

(3) ROUGE指标^[[90](javascript:void(0);)^]^:其全称是recall-oriented understudy for gisting evaluation.与BLEU指标相似,但BLEU指标面向的是查准率,而ROGUE指标面向的是查全率.该指标在文本摘要研究中被经常使用,又可以细分为ROUGE-N和ROUGE-L.其中,ROUGE-N指标以n元词组为基本单元,计算两个句子之间n元词组的重合率.而ROUGE-L指标与ROUGE-N指标相似,但是针对的是最长公共子序列(longest common subsequence)的重合率.

(4) CIDER指标^[[91](javascript:void(0);)^]^:其全称是consensus-based image description evaluation.一般用于图像字幕生成问题.该评测指标可以认为是BLEU指标和向量空间模型的集合.其将每个句子视为文档,然后计算出n元词组的tf-idf值,通过余弦夹角计算出候选文本和参考文本之间的相似度.最后,基于不同长度的n元词组计算出平均取值,并作为最终结果.

不难看出,BLEU、METOR和ROUGE指标的取值范围介于0～1之间,并经常以百分比的形式给出.而CIDER指标对的取值范围并不在0～1之间,因此经常以实数的形式给出.

‍

GAS消耗

和Solidity对比

邀请人测试

‍

标签：BLEU,词组,GAS,消耗,候选,指标,ROUGE,评价,文本
From： https://www.cnblogs.com/myfriend/p/evaluation-indicators-similarity-gas-consumption-zxf4to

机器学习评价指标之回归问题
1.平均绝对误差：MAE（MeanAbsoluteError）2.均方误差：MSE（MeanSquaredError）3.均方根误差：RMSE（RootMeanSquardError）4.决定系数：R2（R-Square）5.校正决定系数（AdjustedR-......
生成模型的评价指标：PSNR, SSIM, RMSE, MSE, NMI, IScore
20230220PSNRPSNR(PeakSignal-to-NoiseRatio)峰值信噪比PSNR越大，模型越好SSIMSSIM的大小介于-1～1，SSIM越大，模型越好结构相似性量测法比NRMSE更能表现图一、图三之......
NETDMIS5.0位置度评价2023
用于控制被测要素（点、线、面）对基准的位置误差。根据零件的功能要求，位置度公差分为给定一个方向、给定两个方向、任意方向三种。1.根据基准体系先测量位置度的基准......
WebLogAspect
package***;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.serializer.SerializerFeature;importcom.google.common.collect.Maps;importlombo......
写给一位姐姐的，同时也是一段评价
不知不觉写了这么多，你若是有或许是自我感动的意愿，不妨就看下去吧。或许是不再想被模糊的情感纠缠，我总是喜欢去解构它们。有些类似尼采曾经对修行者的分析吧，所谓的修行者......
安防视频监控场景中，如何有效降低4G网卡的流量消耗？
目前基于智慧城市与安防监控等应用需求的不断增长，视频监控的应用也日益增加。多数场景基于专线、政务网、局域网等搭建网络传输通道，但是也有一些项目，无法通网通电到现场，这......
[转]领导力评价
本文转自：https://www.wjx.cn/jq/18260686.aspx ......
评价类-1.层次分析法
写在前面开始准备美赛/已经晚了阿喂写博客一方面是为了记录学习的模型和算法（不知道为什么最近的记忆力越来越......
评价返现，实现用户留存公众号
大家好，我是小悟如果你刚好经营着一家网店，也刚好运营着一个公众号，最好是有开通支付和现金红包功能的。那就可以通过评价返现的功能，有机会将用户留存在你的公众号上，便于精准......
搜索排序——搜索评价指标
搜索排序一直是信息检索的研究重点，搜索排序的流程主要分为：召回层、粗排层、精排层、重排层，重排层主要考虑的是相关业务诉求和多样性要求，偏业务规则，此处我们只关注精排模型......

评价指标：相似度、GAS消耗

【代码注释自动生成方法综述】

相关文章

赞助商

阅读排行