使用评价指标工具

时间：2023-06-27 23:22:44浏览次数：30

标签：load metric predictions 指标 references 评价工具 glue

评估一个训练好的模型需要评估指标，比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标，而HuggingFace提供了统一的评价指标工具。

1.列出可用的评价指标
通过list_metrics()函数列出可用的评价指标：

def list_metric_test():
    # 第4章/列出可用的评价指标
    from datasets import list_metrics
    metrics_list = list_metrics()
    print(len(metrics_list), metrics_list[:5])

输出结果如下所示：

157 ['accuracy', 'bertscore', 'bleu', 'bleurt', 'brier_score']

可见目前包含157个评价指标，并且输出了前5个评价指标。

2.加载一个评价指标
通过load_metric()加载评价指标，需要说明的是有的评价指标和对应的数据集配套使用，这里以glue数据集的mrpc子集为例：

def load_metric_test():
    # 第4章/加载评价指标
    from datasets import load_metric
    metric = load_metric(path="accuracy") #加载accuracy指标
    print(metric)

    # 第4章/加载一个评价指标
    from datasets import load_metric
    metric = load_metric(path='glue', config_name='mrpc') #加载glue数据集中的mrpc子集
    print(metric)

3.获取评价指标的使用说明
评价指标的inputs_description属性描述了评价指标的使用方法，以及评价指标的使用方法如下所示：

def load_metric_description_test():
    # 第4章/加载一个评价指标
    from datasets import load_metric
    glue_metric = load_metric('glue', 'mrpc')  # 加载glue数据集中的mrpc子集
    print(glue_metric.inputs_description)

    references = [0, 1]
    predictions = [0, 1]
    results = glue_metric.compute(predictions=predictions, references=references)
    print(results)  # {'accuracy': 1.0, 'f1': 1.0}

输出结果如下所示：

Compute GLUE evaluation metric associated to each GLUE dataset.
Args:
    predictions: list of predictions to score.
        Each translation should be tokenized into a list of tokens.
    references: list of lists of references for each translation.
        Each reference should be tokenized into a list of tokens.
Returns: depending on the GLUE subset, one or several of:
    "accuracy": Accuracy
    "f1": F1 score
    "pearson": Pearson Correlation
    "spearmanr": Spearman Correlation
    "matthews_correlation": Matthew Correlation
Examples:

    >>> glue_metric = datasets.load_metric('glue', 'sst2')  # 'sst2' or any of ["mnli", "mnli_mismatched", "mnli_matched", "qnli", "rte", "wnli", "hans"]
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'accuracy': 1.0}

    >>> glue_metric = datasets.load_metric('glue', 'mrpc')  # 'mrpc' or 'qqp'
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'accuracy': 1.0, 'f1': 1.0}

    >>> glue_metric = datasets.load_metric('glue', 'stsb')
    >>> references = [0., 1., 2., 3., 4., 5.]
    >>> predictions = [0., 1., 2., 3., 4., 5.]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print({"pearson": round(results["pearson"], 2), "spearmanr": round(results["spearmanr"], 2)})
    {'pearson': 1.0, 'spearmanr': 1.0}

    >>> glue_metric = datasets.load_metric('glue', 'cola')
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'matthews_correlation': 1.0}

{'accuracy': 1.0, 'f1': 1.0}

首先描述了评价指标的使用方法，然后计算评价指标accuracy和f1。

标签：load,metric,predictions,指标,references,评价,工具,glue
From： https://www.cnblogs.com/shengshengwang/p/17510173.html

GTD和掌握Omni系列效率工具
说到时间管理我相信很多人都不陌生，但是真正能很好地管理好自己的时间的同学却屈指可数，有的人说与其花时间去做时间管理还不如尽可能的把时间花在做工作上，这就涉及到一个效率的问题，你是随随便便眉毛胡子一把抓想起什么就做什么效率高呢还是花5到10分钟做个时间规划再按照计划灵活分......
使用数据集工具
一.数据集工具介绍HuggingFace通过API提供了统一的数据集处理工具，它提供的数据集如下所示：该界面左侧可以根据不同的任务类型、类库、语言、License等来筛选数据集，右侧为具体的数据集列表，其中有经典的glue、super_glue数据集，问答数据集squad，情感分类数据集imdb，纯文本数据集wikit......
如何在矩池云上运行 AI 图像编辑工具 DragGAN
5月，DragGAN横空出世，在开源代码尚未公布前，就在Github上斩获近20000Star，彼时，页面上只有效果图和一句“CodewillbereleasedinJune”，然而这也足够带给人们无限期待。在6月末，在若干非官方复现代码发布后，官方版DragGAN终于发布，我们也第一时间在矩池云上进行了尝试。上传模型......
分享几个免费设计生成及参考工具（第四期）
今天来给大家分享几个国外免费的设计生成工具CallToInspirationhttps://calltoinspiration.com/一个为UX设计师和开发人员提供灵感的平台，在这里你可以看到很多细节化的设计元素，比如登录界面、个人资料页面、按钮、图标等，让你可以从中获取灵感，创造出独特而精致的设计。KuKuKeKeht......
监听调试web service的好工具TCPMon
一般的远程监控软件都是用c或者c++等语言开发的，而使用java如何来实现相同的功能呢。首先我们先介绍一下一个简单的远程监控程序的实现原理。功能一，远程屏幕监视 (1)必须要有监控端与被监控端，而且程序保持启动。 (2)被监控端获取本机的屏幕截屏发图给监控端。 (3)监控端在......
嘉为蓝鲸入选《信息技术服务运维工具名录》及《IT服务工具图谱》
6月15-16日，由ITSS分会举办的信息技术服务工具产品标准制修订及技术研讨工作会议在京召开，会上重磅发布《中国信息技术服务运维工具名录》及《IT服务工具图谱》最新版。运维工具名录和工具图谱的研制目的是为了充分发挥标准对IT服务工具行业发展的引领作用。包含了两方面的内容，一是推......
nmon图像化监控工具
Nmon图像化监控工具一、nmon工具环境准备1.上传nmon工具到任意目录2.给nmon改名3.给nmon工具授可执行权限二、nmon使用方法执行命令：./nmon-ft-s5-c1000-ft：以文件方式保存数据-s:每5秒监控一次-c:监控多少次三、nmon数据转化1.下载数据Kill-9266492.转换数据打开nmonanalys......
[渗透测试]—6.3 无线网络渗透测试工具
在本章节中，我们将学习一些常用的无线网络渗透测试工具，如Aircrack-ng、Reaver等。我们将尽量讲解得详细、通俗易懂，并提供尽可能多的实例。6.1Aircrack-ng套件Aircrack-ng是一个用于测试无线网络安全的工具集，包括捕获数据包、破解WEP和WPA/WPA2-PSK密钥、创建和管理访问点等功能......
容器管理工具portainer安装
dockerrun-d-p9000:9000--nameportainer--restart=always--privileged=true-v/var/run/docker.sock:/var/run/docker.sock-vportainer_data:/dataportainer/portainer 下面是添加node节点 ......
跨平台开源远程连接工具rustdesk
rustdeskhttps://github.com/rustdesk/rustdeskhttps://gitee.com/mirrors/rustdesk......

使用评价指标工具

相关文章

赞助商

阅读排行