首页 > 其他分享 >帕金森病(PD)诊断:三种基于语音的深度学习方法

帕金森病(PD)诊断:三种基于语音的深度学习方法

时间:2024-07-26 23:27:07浏览次数:15  
标签:DAF PD 模型 帕金森病 学习 E2E 语音

        帕金森病(Parkinson’s disease, PD)是世界上第二大流行的神经退行性疾病,全球影响着超过1000万人,仅次于阿尔茨海默症。人们通常在65岁左右被诊断出患有此病。PD的一些症状包括震颤、肌肉僵硬和运动迟缓。这些症状往往出现在较晚的阶段,使得仅基于这些症状的早期诊断变得困难。PD可以影响语音产生的各个方面,包括发音、声音的音调和响度、韵律以及声音的质量,导致语音障碍特征表现为声音嘶哑(dysphonia)和言语障碍(dysarthria)。声音嘶哑意味着产生声音的能力降低,而言语障碍指的是产生单词的困难。这些语音障碍可能在其他症状出现前长达五年就已发生,表明早期PD诊断实际上是可能的。

       在前面已经有2篇文章针对帕金森病(PD)诊断进行了阐述,有兴趣的朋友可以直接翻阅以下链接:

首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

PPINtonus (深度学习音调分析)帕金森病早期检测系统

     本文研究分析了三种基于语音的深度学习方法(端到端学习 (E2E) 、迁移学习 (Transfer Learning, TL) 、深度声学特征 (Deep Acoustic Features, DAF)),讲述各学习方法的性能、挑战及应用情况。

1 端到端学习(E2E)

在E2E方法中,原始语音信号可以直接映射到最终输出,与传统的基于高斯混合模型(GMMs)和隐马尔可夫模型(HMMs)的语音识别流程不同。在传统方法中,必须提取手工设计的特征(如梅尔频率倒谱系数MFCCs),然后使用语言模型将这些特征映射到文本符号,最后进行分类。E2E方法避免了手动特征提取,允许模型学习从输入到输出的直接映射。

1.1 E2E 学习的优势

  • 自动特征提取:E2E 学习可以自动从语音信号中提取具有区分性的特征,无需手动设计特征工程,节省了时间和精力。
  • 减少错误累积:E2E 学习避免了手动特征提取过程中可能出现的错误,例如特征选择不当或特征提取方法不适用等,从而提高了分类的准确率。
  • 模型优化:E2E 学习可以端到端地优化模型参数,使得模型能够更好地学习数据中的规律,并提高分类性能。

1.2 E2E 学习的挑战

  • 数据需求量大:E2E 学习需要大量的训练数据来训练模型,而 PD 语音数据集相对较小,这限制了模型的训练效果和泛化能力。
  • 模型复杂度高:E2E 模型通常比较复杂,需要大量的计算资源进行训练和推理,这增加了模型的部署难度。
  • 可解释性差:E2E 模型的决策过程难以解释,难以理解模型是如何进行分类的,这限制了模型的实际应用。

1.3 E2E 学习在 PD 语音分类中的应用

  • CNN 架构:卷积神经网络 (CNN) 是 E2E 学习中最常用的模型架构之一,它可以有效地学习语音信号中的局部特征,例如声谱图中的频谱特征。
  • LSTM 架构:长短期记忆网络 (LSTM) 可以有效地学习语音信号中的长期依赖关系,例如音节的时序特征。
  • Transformer 架构:Transformer 架构在自然语言处理领域取得了突破性的成果,近年来也被应用于语音信号处理领域,并展现出强大的潜力。

2 迁移学习 (Transfer Learning, TL)

TL方法通过利用在一个大型数据库上预训练的深度神经网络(DNN),然后将这些网络应用到另一个通常数据量较小的任务上。这种方法可以解决数据可用性问题,因为它允许模型利用在源领域学到的知识来提高在目标领域的性能。特别是跨语言的TL方法,已被证明可以增强诊断系统的稳健性,并在不同语言之间提高适用性。

2.1 迁移学习的优势

  • 解决数据稀缺问题:PD 语音数据集通常规模较小,难以训练大型深度学习模型。
  • TL 允许我们利用在其他大规模语音数据集(如 ImageNet)上预训练的模型,并将其迁移到 PD 语音数据集上进行微调。这样可以显著减少对大量标注数据的依赖,并提高模型的泛化能力。
  • 跨语言应用:不同语言之间存在差异,例如发音、语调等。TL 可以帮助我们将在一个语言上训练好的模型迁移到另一个语言上,从而实现跨语言 PD 分类。
  • 这对于开发通用的 PD 诊断系统具有重要意义,可以方便不同语言人群使用。
  • 提高模型性能:通过迁移学习,模型可以学习到更通用的特征,从而提高在目标语言或任务上的性能。一些研究表明,使用 TL 的模型在 PD 分类任务中取得了比仅使用目标语言数据训练的模型更好的性能。

2.2 迁移学习的挑战

  • 如何选择合适的基础模型和微调策略。
  • 如何处理不同语言之间的差异。
  • 如何评估 TL 模型的性能。

3 深度声学特征 (Deep Acoustic Features, DAF)

DAF方法旨在通过使用深度学习模型从音频信号中自动提取特征,来提高结果的可解释性和解释性。这些特征可以在深度学习模型的最后层中使用,也可以用作更传统机器学习方法的输入。尽管DAF方法可能在性能上不如E2E和TL方法,但它们通过检查深度特征对PD分类的影响,提供了对模型决策过程的更多洞察。

3.1 DAF 的提取方式

  • 从端到端 (E2E) 模型中学习: 将原始语音信号输入 E2E 模型,例如卷积神经网络 (CNN) 或 Transformer,模型会自动学习并提取特征,并在最终层进行分类。
  • 使用预训练模型: 使用已经在大规模数据集上预训练的模型,例如 Wav2Vec2.0、VGGish 或 SoundNet,生成 DAF。
  • 使用自编码器: 使用自编码器学习并提取音频信号的低维表示,作为 DAF。

3.2 DAF 的优势

  • 无需手动特征工程: DAF 的提取过程完全自动化,无需手动设计特征,节省了时间和精力。
  • 更鲁棒: DAF 能够更好地捕捉音频信号中的细微变化,对噪声和说话人差异更鲁棒。
  • 更抽象: DAF 能够捕捉到更高层次的特征,例如说话人的语音风格、语调等,这些特征对 PD 诊断更有价值。

3.3 DAF 的挑战

  • 解释性差: 由于 DAF 是自动学习的,其背后的原理和特征含义难以解释,这限制了 DAF 在临床应用中的推广。
  • 性能不如 E2E 和 TL: 目前 DAF 的性能通常不如 E2E 和迁移学习 (TL) 方法,这可能是因为 DAF 缺乏对特定任务的针对性。

4 实际应用情况

  • E2E 学习: CNN 架构通常可以达到 90% 以上的准确率,Transformer 架构也展现出与 CNN 相当的性能。
  • TL: TL 方法通常可以达到 60% 到 90% 的准确率,跨语言 TL 可以进一步提高准确率。
  • DAF: DAF 方法可以达到 87% 以上的准确率,并且比传统特征(如 MFCC)表现更好。

5 数据集

数据集名称(年份)

来源 #参与者

语言

总语音时长

数据质量

语音任务

备注

Saarbruecken Voice Database (2006)

1002参与者

德语

±300分钟

麦克风录音

1. 正常、高和低音的元音(i, a, u)。2. 音高变化的元音(i, a, u)。3. "Guten Morgen, wie geht es Ihnen?"句子。

851名健康对照组(HC),平均年龄9-84岁。

PC-GITA (2014)

100

西班牙语

±900分钟

麦克风录音

1. 持续元音。2. 快速重复单词和音节(DDK)。3. 单词和句子的重复。4. 对话阅读。5. 强调特定单词的句子阅读。

50名PD患者,平均年龄33-77岁。

Parkinson Speech Dataset with Multiple Types of Recordings (2014)

68 (40训练,28测试)

土耳其语

未提供

麦克风录音

1. 持续元音(/a/, /o/, /u/)。2. 数字(1到10)。3. 单词。4. 短句。

20名PD患者,平均年龄43-79岁。

Italian Parkinson’s Voice and Speech (2017)

65

意大利语

±116分钟

麦克风录音

1. 阅读语音平衡文本。2. 发音/pa/和/ta/音节。3. 元音/a/, /e/, /i/, /o/和/u/的音调。4. 阅读语音平衡单词。5. 阅读语音平衡句子。

28名PD患者,平均年龄40-89岁。

Parkinson’s Disease Classification (2018)

252

土耳其语

未提供

麦克风录音

持续元音/a/。

188名PD患者,平均年龄33-87岁。

Synthetic Vowels of Speakers with Parkinson’s Disease and Parkinsonism (2019)

83

捷克语

±385分钟

麦克风录音

持续元音/a/和/i/。

22名PD患者,21名多系统萎缩(MSA)患者,18名进行性核上性麻痹(PSP)患者,22名健康对照组。

NeuroVoz (2024)

108

西班牙语

±106分钟

麦克风录音

1. 持续元音3秒。2. DDK 10秒。3. 听后重复的语句。4. 自由独白30秒。

53名PD患者,平均年龄71.13岁。55名健康对照组,平均年龄64.04岁。

标签:DAF,PD,模型,帕金森病,学习,E2E,语音
From: https://blog.csdn.net/robinfang2019/article/details/140726147

相关文章

  • Parallels对Mac的损害大吗 pd虚拟机怎么设置内存和CPU 运行Parallels发热
    Parallels是一家专注于虚拟化软件开发的公司,其旗舰产品ParallelsDesktopforMac为Mac用户带来了运行非原生操作系统的无缝体验。然而,或许有人会忧心使用ParallelsDesktop会给Mac系统带来潜在的损害。下面咱们就对这一问题展开深入探究,并给出应对之策。Parallels......
  • @TableLogic导致update失效
    前言1.为什么要使用TableLogic?(1)在某些业务需求场景下,删除数据需要采用逻辑删除而不是物理删除(2)方便以后数据审计、历史数据的分析、保证多表数据的完整性然而,这一功能在某些情况下会导致更新操作失效。本文将详细讨论@TableLogic如何影响更新操作,并提供相应的解......
  • 如何使用Python实现语音转文字/字幕
    文章目录......
  • 加速/并行化 multivariate_normal.pdf
    我有多个Nx3点,并且我从其相应的多元高斯中顺序为每个点生成一个新值,每个点都有1x3均值和3x3cov。因此,我总共有数组:Nx3点数组、Nx3均值数组和Nx3x3cov数组。我只看到如何使用经典的for循环来做到这一点:importnumpyasnpfromscipy.statsimportmultivariat......
  • Vonage 语音 API - 使用 python 出现错误
    我正在尝试使用vonage语音api模拟语音通话。我正在尝试使用python来做到这一点。我创建了一个.env文件并更新了应用程序id和私钥值的值,而不是路径(不确定从哪里获取它)。这是下面编写的代码:#!/usr/bin/envpython3importosfromos.pathimportjoin,dirname......
  • CET6英语六级真题及答案解析下载电子版pdf2024年6月
    大学英语六级真题在线试卷电子版PDF听力及答案解析–学习备忘录(201800.com)2024年6月CET6真题及答案解析,扫码下载电子版PDF:李明,是一名即将大三的学生。他一直梦想着能够顺利通过大学英语六级考试(CET-6),因为他知道这不仅能够证明自己的英语水平,还可能为将来的就业或留学提供......
  • ToDesk语音通话功能正式上线,远控互动交流更轻松!
    远程控制如今已成为现代化办公必备的软件之一,从提升工作效率到解决紧急事项等方面帮助打工人更快更好地完成日常工作。为了满足大家对远程控制软件日益增长的即时沟通需求,ToDesk近期发布了4.7.2.0版本。在原先跨系统跨设备,高清画质高速传输文件等功能的基础上,新增了语音通话功......
  • 从图像到语音:机器学习与模式识别到底是什么关系?
    对人类来说,模式识别是一种大脑中的认知过程。我们可以轻松地将接收到的信息与记忆中存储的数据进行匹配,例如,大脑可以立即区分花朵和动物的图像,或者在浏览抖音时迅速识别出老朋友的面孔。这种能力不仅体现了人类大脑的惊人效率,也是我们日常生活中不可或缺的一部分。无论是在自然......
  • 虚拟机编译安装 dpdk--运行helloworld
    DPDK技术介绍一,版本信息DPDK版本:dpdk-22.07操作系统:Ubuntu22.04.1LTS二、虚拟机ubuntu添加网卡1.2.显卡由enssx改为ethxsudonano/etc/default/grub找到GRUB_CMDLINE_LINUX=""改为GRUB_CMDLINE_LINUX="net.ifnames=0biosdevname=0"然后执行如下指令sudogr......
  • 使用 Python 生成多页 PDF 报告,其中包含表格、页眉、页脚和可调整单元格数据(使用 repo
    我想在Python中生成带有表格、页眉、页脚和可调整单元格数据的多页PDF报告(使用reportlab)但是,由于奇怪的原因,字体大小并没有随着表格内容而改变......我尝试在这里改变:('FONTSIZE',(0,1),(-1,-1),24),#内容的字体大小但什么也没发生importtimefromreportlab......