首页 > 其他分享 >视觉语音识别挑战赛 CNVSRC 2024

视觉语音识别挑战赛 CNVSRC 2024

时间:2024-05-28 10:58:09浏览次数:14  
标签:赛道 2024 CNVSRC CER 语音 挑战赛 视觉 识别 数据

       CNVSRC 2024由NCMMSC 2024组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办。竞赛的目标是通过口唇动作来推断发音内容,进一步推动视觉语音识别技术的发展。视觉语音识别(也称为读唇技术)是一种通过观察唇部动作推断发音内容的技术,广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

     当前,读唇研究仍处于初级阶段,无法满足实际应用需求。尽管在短语识别上取得了显著进展,但在大规模连续识别方面仍面临巨大挑战,尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1):专注于对特定说话人大规模调整的性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2):专注于系统对非特定说话人的基本性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

2、挑战数据集

  • CN-CVS:2023年,清华大学的CSLT(Center for Speech and Language Technologies)发布了CN-CVS数据集,包含超过2557名说话者的视觉语音数据,超过300小时,涵盖新闻广播和公共演讲场景,是目前最大的开源中文视觉语音数据集,为推动大规模连续视觉语音识别(LVCVSR)提供了可能性。
  • CNVSRC-Single:单说话者数据,包含来自互联网媒体的音频和视频数据,超过100小时。
  • CNVSRC-Multi:多说话者数据,包含43名说话者的音频和视频数据,每人近1小时。
  • CN-CVS2-P1:开放式赛道的额外数据源,提供超过16万句话语,总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率(Character Error Rate, CER)作为主要评价指标。

CER主要由三种类型的错误组成:插入(Insertion)、替代(Substitution)和删除(Deletion),Nins、Nsubs、Ndel代表三种类型的错误数量,Ntotal代表错误总数量。

  • 插入错误发生在正确的字符之间不应该有任何字符,但实际上却出现了一个额外的字符。
  • 替代错误是指正确的字符被错误地替换为另一个字符。
  • 删除错误发生在一个字符应该存在的地方,但是却没有该字符。
  • 4、基线系统性能

基线系统旨在提供一个合理的性能基准,使用与固定赛道(Fixed Track)允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,常用于语音识别任务。

基线系统的性能通过字符错误率(CER)来衡量,这是评估视觉语音识别系统的主要指标。

  • 在固定赛道的单说话者视觉语音识别(VSR)任务上,基线系统在开发集(Dev Set)上的CER为41.22%,在评估集(Eval Set)上的CER为39.66%。
  • 在多说话者视觉语音识别任务上,基线系统在开发集上的CER为52.42%,在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

  • 改进特征提取:利用更有效的视觉特征提取技术,如3D卷积、自注意力机制等,以获取更丰富的时空信息。
  • 增加训练数据量:利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集,同时收集更多高质量的训练数据。
  • 引入语言模型:使用N-gram或RNN语言模型,以约束解码器输出合理的单词序列。
  • 使用预训练模型:在固定赛道中,可以利用预训练的声学模型和语言模型作为特征提取器。
  • 改进解码器:尝试使用集束搜索或基于注意力机制的解码器,以提高解码质量。
  • 模型融合:使用集成学习技术,如模型平均或堆叠,以提高整体性能。
  • 数据清洗和增强:对训练数据进行清洗,去除质量较差的样本,并进行增强以提高模型的泛化能力。
  • 微调和调优:在测试集上进行模型调优,找到最优的模型参数配置。
  • 研究注意力机制:设计新的注意力机制,以使模型更关注关键信息,如嘴唇区域。
  • 使用端到端训练:通过端到端训练,使模型各部分能更好地协同工作。

6、关键日期

2024.05.08

注册开始

2024.05.08

数据集发布

2024.05.08

基线系统发布

2024.07.01

递交系统开放

2024.08.01

结果递交截止

2024.08.15

NCMMSC 2024 研讨会

7、相关资源

官网:http://cnceleb.org/competition#registration

基线系统源代码:Files · cncvs · Lantian Li / Sunine · GitLab

标签:赛道,2024,CNVSRC,CER,语音,挑战赛,视觉,识别,数据
From: https://blog.csdn.net/robinfang2019/article/details/139260466

相关文章

  • CISCN 2024 reverse 国赛复盘
    asm_re手撕汇编,配合GPT分析,加上一点点的猜测。在汇编推出可以看到加密逻辑:value=ord(f[1])value*=0x50;value+=0x14;value^=0x4D;value+=0x1E;print(value)已经知道第一个为f,f经过加密得到0x1FD7,l可以得到0x21B7。同理,根据数据段可以还原出flag,......
  • 【2024-05-27】高中校友会
    20:00三十岁之前,能搞清楚自己想要什么就不错了。黎明前的黑暗是最难熬的,你到那块儿难,别人也难,谁多坚持一秒,谁就是胜利者。                                ——林宝军周六参加了高中的广州校友会活动。在......
  • 【2024-05-26】连岳摘抄
    23:59我现在终于明白教养孩子绝不仅仅只是修正他的缺点,同时还要发掘他的优势与美德,帮助孩子在社会.上找到一一个安身立命之所,使他的积极人格特质得以全面发展。                                ——马丁·塞......
  • 2024年西安交通大学程序设计校赛
    2024年西安交通大学程序设计校赛因为本人比较菜,所以只补赛时(校内训练赛)写了但没写出的题,完整题解可以参考洛谷的巨巨~:https://www.luogu.com.cn/article/vzlnmec8K.崩坏:星穹铁道关键题面:Corycle想成为星穹铁道高手,为此他需要对自己的配队了如指掌。由于角色有多种职业,同时......
  • 郑州大学2023-2024第二学期高级语言程序设计-实验6
    郑州大学2023-2024第二学期高级语言程序设计-实验61抗疫凯旋2求10个点到原点的距离和3最小公倍数4变量有多少字节?5是否是斐波那契家族的一员?6递归实现逆序输出整数7河南的抗疫英雄8出生年9汉诺塔问题10素因子分解1抗疫凯旋这道题已经给了提示如何在while......
  • 【专题】2024餐饮行业及营销趋势报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=36256原文出处:拓端数据部落公众号2024年,餐饮行业的趋势展望聚焦于健康、国潮、单品爆款和情感体验四大方向。首先,健康成为了消费者在选择餐饮时的首要考量。人们越来越注重食材的新鲜度和健康性,对菜品的口味也有了更高的要求。这意味着餐饮品牌需......
  • 2024年5月27日第五十六篇
    今天做了一个网页开发,联系了自己的增删改查,和弹出式表单的设计。<template><el-containerclass="layout-container-demo"><el-asidewidth="200px"><el-scrollbar><el-menu:default-openeds="['1','3�......
  • 2024/05/27
    今日学习有关知识时长:78分钟代码行数:80行发表博客数量:1篇今日学习的内容主要是有关数据库操作中的触发器和储存过程。触发器(trigger)就相当于事件绑定,当你进行某类sql语句操作时将会自动调用你你所设置的触发器来进行操作。储存过程(procedure)就相当于我们Java中的方法,可以带有......
  • MindSponge分子动力学模拟——多路径分子模拟(2024.05)
    技术背景在前面的MindSponge教程系列博客中,我们已经介绍过MindSponge分子动力学模拟框架的基础功能使用方法,例如MindSponge的安装与使用、定义分子系统、计算单点能和迭代器等等。这些模块和功能,更多的是凭借MindSpore深度学习框架的自动微分、GPU加速和Python语言的灵活性,而本文......
  • 2024 蓝桥杯省赛游记
    Day-inf看了眼去年的题,一个插头dp一个杜教筛,恐怖如斯群里问了句发现hkhmtr也参加Day1完全没压力所以随便玩了。开场扫了一眼只有8道题,有个树上莫队?T1赛后看知乎好像能直接拿excel生成字符串形式的日期T2一开始没注意白棋一定有13个子,跑完了再看题才想到,提答的......