首页 > 其他分享 >Cadenza 项目:机器学习如何改善听力受损人士的音乐聆听体验

Cadenza 项目:机器学习如何改善听力受损人士的音乐聆听体验

时间:2024-09-15 12:21:46浏览次数:12  
标签:Cadenza 分离 立体声 音乐 助听器 算法 聆听 听力

       音乐,作为全人类共享的文化瑰宝,具有强大的凝聚力,它不仅塑造了我们的社会风貌,更为我们的身心健康带来诸多益处。然而,听力损失却无情地削弱了这份美妙的体验。据世界卫生组织预测,到2050年,全球将有高达25亿人口面临不同程度的听力损失,其中至少7亿人急需治疗。听力受损使得人们在聆听音乐时遭遇重重障碍,如细微之处难以捕捉、音高感知失准,以及歌词与乐器辨识困难等问题。

      鉴于此,研发更为先进的音乐处理技术,以优化助听器和消费级设备的音质表现,对于保障听力受损人群的音乐享受与福祉显得尤为重要。对于轻度至中度听力损失的患者而言,助听器是最常见的解决方案。尽管许多助听器配备了音乐模式,但实际效果却参差不齐,高达68%的用户反映在使用助听器聆听音乐时感到困扰。这一问题的复杂性在于,助听器需根据个体听力阈值进行频率依赖性的非线性放大,同时还需应对低强度声音的快速响度增长(即响度招募)以及避免过大声音带来的不适。为实现这一目标,宽动态范围压缩系统(WDRC)被广泛应用,旨在确保声音既清晰又舒适。然而,WDRC在调整信号时序包络的过程中,其变化程度受动态响应速度影响,可能引入“泵感”等动态伪影。此外,助听器还具备语音增强、反馈抑制、风噪降低及场景分析等多种功能。然而,这些功能主要针对语音进行优化,其频率依赖性增益和压缩器响应速度等设置可能并不适用于具有独特频谱和时序特征的音乐。

     在本文中,我们描述了Cadenza项目:挑战方法首次应用于改善听力损失者音乐音质的问题。报告了两个挑战,主要区别在于第一个挑战(CAD1)是用于通过耳机收听,而第二个挑战(ICASSP24),是用于通过扬声器收听。任务目标是对立体声音乐信号进行分解,然后进行重混,因为这样的系统可以帮助解决已知的音乐收听和听力损失问题。

1 方法

两个场景均围绕听音乐构建:(a) 通过耳机听音乐,且不使用助听器;(b) 通过立体声扬声器使用助听器听音乐—见上图。对于CAD1,需要处理的信号是输送到耳机的左右信号。对于ICASSP24,左右信号来自助听器麦克风在每只耳朵处的信号。这意味着对于ICASSP24,需要处理的音乐是左右扬声器信号的混合。扬声器到助听器麦克风的声音传播是使用头相关传递函数(HRTFs)建模的。左右信号在耳朵处的组合取决于声波在肩膀、头部、耳朵和助听器周围的衍射、反射和干涉。在某些频率和方位角上,它们可能会相加,在其他情况下可能会相减。因此,与原始立体声轨道相比,耳朵处左右VDBO(声乐、鼓、低音和其他乐器)组件的强度是不同的,为ICASSP24系统与CAD1和先前的分解挑战相比带来了额外的复杂性。

1.1 数据

1.1.1 音乐数据

  • MUSDB18-HQ 数据集: 包含流行/摇滚音乐的 VDBO 声部以及立体声混音,用于训练和验证分离算法。
  • MoisesDB 数据集: 从中随机选取了 50 首歌曲作为独立的验证集,用于评估算法的泛化能力。

1.1.2 听者数据

  • Clarity 项目数据: 包含 83 份听力图数据,用于训练和验证分离算法。根据我们更好的耳朵听力损失分类,没有无损害的人,17人轻度,44人中度,22人中重度,没有严重损害。
  • von Gablenz 等人数据: 包含 50 份听力图数据,用于验证分离算法。根据分类,没有无损害的人,24人轻度,22人中度,4人中重度,0人严重。
  • Cadenza 听音小组数据: 包含 53 份听力图数据,用于评估分离和重混后的音乐质量。根据分类,有3名听众无损害,13名轻度,17名中度,19名中重度,1名严重。

1.2 方法

1.2.1 分离算法

  • Hybrid Demucs: 基于深度学习的声源分离算法,结合时间域和频谱域信息进行分离。
  • Open-Unmix: 基于深度学习的声源分离算法,仅使用频谱域信息进行分离。
  • 其他算法: 部分参赛者使用了其他声源分离算法,例如 Spleeter 和 HT-Demucs。

1.2.2 音乐增强

  • NAL-R 算法: 基于听力图的频率依赖性放大算法,用于补偿听力阈值升高的影响。
  • 其他算法: 部分参赛者使用了其他音乐增强算法,例如多带压缩器和线性滤波器。

1.2.3 重混算法

  • 简单重混: 将分离后的 VDBO 声部直接混合成立体声信号。
  • 调整音量: 调整 VDBO 声部的音量,以突出特定声部或满足用户的个性化需求。
  • 均衡调整: 通过调整 VDBO 声部的均衡,改变音乐的频谱特性。
  • Mid-Side 重混: 通过调整 Mid 和 Side 信号的均衡,改变音乐的立体声效果。

1.2.4 评估方法

  • HAAQI (Hearing-Aid Audio Quality Index): 用于评估分离和重混后的音乐质量,考虑了听力损失和助听器的影响。
  • 主观评估: 通过听音小组对音乐进行主观评估,例如音质、清晰度、自然度等。

1.2.5 数据分析

  • CAD1 挑战: 由于基线算法的性能已经很高,参赛者难以取得突破性进展。
  • ICASSP24 挑战: 通过增加扬声器重放场景和音量调整步骤,提高了挑战难度,并促使参赛者探索更复杂的算法和方法。
  • 因果系统: 目前只有少数参赛者使用了因果系统,未来需要更多研究来探索低延迟的因果算法。

1.3 挑战赛基线架构

  • 输入立体声信号:系统接收的原始立体声音乐信号,作为源分离过程的输入。
  • 源分离(Source Separation):使用如Hybrid Demucs或Open-Unmix等算法将立体声音乐分解成不同的乐器和人声组件,如声乐、鼓、低音和其他乐器(VDBO)。
  • 增益应用(Gain Application):在重混之前,根据听力受损者的听力图谱,对分离出的各个组件(VDBO)应用特定的增益,以补偿听力损失。
  • 重混(Remixing):将经过增益调整的VDBO组件重新混合成新的立体声信号。
  • 频率依赖性放大(Frequency-Dependent Amplification):使用NAL-R或其他方法对重混后的信号进行频率依赖性放大,以进一步优化听力受损者的听觉体验。
  • 输出立体声信号:经过处理和优化的最终立体声音乐信号,可供听力受损者通过助听器或耳机聆听。

2 结论

2.1 CAD1 挑战赛

参赛系统数量: 7 个参赛系统,2 个基线系统,1 个不做任何处理的系统。

2.1.1 主要方法

  • 大多数系统使用 HDemucs 或 OpenUnmix 进行源分离。
  • 一些系统尝试了不同的重混音策略,例如改变 VDBO 信号的平衡或应用中-侧均衡。
  • 一些系统尝试了不同的放大策略,例如多带压缩或线性滤波器。

2.1.2 结果

  • 没有系统在 HAAQI 指标上超过最佳基线系统。
  • HAAQI 分数与听力损失程度呈负相关,即听力损失越严重,分数越低。
  • HDemucs 基线系统在重混音任务上表现最佳。

2.2 ICASSP24 挑战赛

参赛系统数量: 17 个参赛系统,来自 11 个团队。

2.2.1 主要方法

  • 大多数系统使用 HDemucs 或 OpenUnmix 进行源分离,并进行了一些改进。
  • 一些系统采用了集成学习方法,结合多个分离算法的输出。
  • 一些系统尝试了不同的重混音策略,例如添加原始立体声信号的一部分或应用中-侧均衡。
  • 只有一个系统尝试改进放大阶段,但由于与 HAAQI 评估中使用的 NAL-R 放大方法不一致,导致分数下降。

2.2.2 结果

  • 9 个系统在 HAAQI 指标上超过了最佳基线系统。
  • HAAQI 分数与听力损失程度呈负相关,即听力损失越严重,分数越低。
  • 使用集成学习方法的系统表现最佳。
  • 重混音前后 VDBO 信号增益差异越大,HAAQI 分数越低。

2.3 结论

D1 挑战赛表明,使用现有的源分离算法很难在 HAAQI 指标上取得突破。 ICASSP24 挑战赛通过引入扬声器重放和增益设置,使得任务更具挑战性,并鼓励了更多的创新。

两次挑战赛都表明,听力损失程度对音乐处理算法的性能有显著影响。

2.4 未来研究方向

鼓励开发低延迟、因果的信号处理算法,使其适用于助听器和现场音乐。

开发更适用于机器学习的音频质量指标,例如基于聆听测试的非侵入式指标。

扩展音乐数据集,包括更多类型的音乐,例如古典音乐。

将挑战赛任务扩展到其他领域,例如歌词清晰度。

期待下一次比赛CAD2!

标签:Cadenza,分离,立体声,音乐,助听器,算法,聆听,听力
From: https://blog.csdn.net/robinfang2019/article/details/142098608

相关文章

  • 高中新英语听力与训练MP3 | 其他学科
    相关说明手头有新华书店配备的高中新英语听力与训练MP3,供高一至高三全学段使用,包含7个文件夹,231个文件,必修第一册、第二册、第三册,选择性必须第一册、第二册、第三册、第四册,共1.95G,需要者联系微信:wh1979448597.试听片段高中英语听力与训练必修第一册相关文件夹......
  • https://www.bilibili.com/video/BV1Bg41167W5/ 突破英语听力口语瓶颈20|掌握5种弱读,不
    functionwordsArticles(the,a/an)Auxiliaries(can,must,might,will)Demonstratives(this,these,that,those)Quantifiers(many,few,little,some)Prepositions(on,with,to,from)Pronouns(he,she,they,we)Conjunctions(and,but,or,but) 1.ReducingConjunction弱读连词......
  • 【四六级备考经验分享】历年英语四六级真题及答案+听力音频+2024年6月三套
    每个大学生都要面对英语四六级考试的挑战,本以为高考结束后能松口气,没想到还得继续在英语学习的道路上奋斗。作为一位已经成功攻克这一难关的学姐,我想分享一些实用的备考资料和建议,助你一臂之力,一次性通过四六级考试!英语四六级备考资料:一、历年英语四级真题及答案:www.201800.com/......
  • 2024年7月JLPT日语N2真题试卷、答案解析、听力原文
    本套真题由【学日语的師夫】制作排版,分享下载日语等级考试N1N2N3N4N5专四专八历年真题PDF文件,树先生日语真题的平替内容,精讲版答案解析非常适合复习备考,听力原文真是还原听力场景,多听多练习。如果你正在备考12月份的考试,可以参考【学日语的師夫】排版的真题内容,刷真题是最有效......
  • 免费在线听力检测网站 All In One
    免费在线听力检测网站AllInOne老人助听器,选购参考Philips飞利浦通过线上听力测试了解您的听力情况https://www.hearingsolutions.philips.com.cn/hearing-loss/hearing-testhttps://www.hearingsolutions.philips.com/en-us西门子高端助听器???demos(......
  • 防水游泳耳机有哪些?揭秘四大实力派,颠覆水下聆听体验
    随着科技的飞速发展,音乐已经成为我们生活中不可或缺的一部分。对于广大游泳爱好者来说,如何在水中也能畅享音乐成为了一个新的挑战。防水游泳耳机作为解决这一问题的利器,越来越受到消费者的青睐。(以上是部分测试过的游泳耳机)但面对市场上琳琅满目的产品,如何挑选一款既防水又......
  • 【爬虫】项目篇-新东方六级听力音频
    importrequests,time,randomfromfake_useragentimportUserAgenturls=open(r'E:\01pycharmproject\网络爬虫技术\sjj1.txt',encoding='utf-8').read().split()i=1forurlinurls:headers={#'User-agent':'Mozilla/5......
  • 工耳蜗重塑听力奇迹:中国市场规模与前景揭秘
    一、行业简述   人工耳蜗是一种电子医疗设备,旨在帮助重度和极重度感音神经性聋患者恢复或提高听力。通过将电极植入内耳,人工耳蜗能够直接刺激听神经纤维,使患者能够感知声音信号。近年来,随着医疗技术的进步和公众健康意识的提高,人工耳蜗市场在中国得到了快速发展。二、市......
  • 8#听力感知
    简介听力感知也叫监听感知是AI模仿生物听觉的感知系统配置听力感知案例使用听力感知系统,让AI可以通过玩家产生的噪声源来寻找玩家这里使用预感感知的黑板变量,因为它们的运作原理一致1.在角色蓝图创建一个噪声源(这里使用调试键来触发)2.创建一个布尔值黑板键来存储AI是否......
  • PTE 听力 选择
             ......