(1)回声返回损耗增益
回声返回损耗增益(Echo Return Loss Enhancement,ERLE)是回声消除特有的评价准则,它表示回声信号%d(n)%与残留回声信号%e(n)%的比值,值越高性能越好。表达式为
$$\mathrm{ERLE}=10 \log _{10}\left\{\frac{\sum_{1}^{L} d^{2}(n)}{\sum_{1}^{L} u^{2}(n)}\right\}$$
(2)语音质量感知评价
语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)算法是由ITU在2001年提出的一种新的语音信号质量客观评价算法,用来表达语音信号的频率和响度等物理特征。PESQ应用的是线性评分制,其分值取值范围在-0.5~4.5之间,PESQ的分值越高则代表语音信号的质量越好,在实际情况中,若PESQ的分值小于等于2分,则代表语音信号的质量较差。
(3)SuppFactor(能量衰落因子)
AEC后输出能量与对应麦克风信号能量的比值。
$$\operatorname{SuppFactor}=\frac{\mathrm{E}\left[|\mathrm{e}|^{2}(\mathrm{n})\right]}{\mathrm{E}\left[|\mathrm{x}|^{2}(\mathrm{n})\right]}$$
(4)cohde(输出信号e(n)与麦克风信号d(n)的频谱相关性)
该值越接近1,说明输出信号中保留的麦克风信号频谱越多。考虑到麦克风信号$d(n)$主要由回声信号$y(n)$和近端语音$v(n)$构成,因此只有近端单讲情况下cohde的值才能接近1,双讲情况下cohde的值在0.5~0.9(取决于回声信号在该帧的占比),当cohde接近0时说明输出信号几乎不包含任何近端语音和回声的频谱成分。其计算公式如下:
$$\begin{array}{l}
\mathrm{S}_{\mathrm{d}}=\mathrm{D}(\omega)\mathrm{D}^{*}(\omega) \\
\mathrm{S}_{\mathrm{c}}=\mathrm{E}(\omega) \mathrm{E}^{*}(\omega) \\
\mathrm{S}_{\mathrm{dc}}=\mathrm{D}(\omega) \mathrm{E}^{*}(\omega) \\
\text { Cohde }=\frac{\left|\mathrm{S}_{\mathrm{dc}}\right|^{2}}{\left|\mathrm{~S}_{\mathrm{d}} * \mathrm{~S}_{\mathrm{c}}\right|}
\end{array}$$
(5)cohxe(输出信号e(n)与远端参考信号x(n)的频谱相关性)
该值越接近0,说明输出信号中残留的远端参考信号频谱越少,回声消除越彻底,其计算公式如下
$$\begin{array}{l}
\mathrm{S}_{\mathrm{x}}=\mathrm{X}(\omega) \mathrm{X}^{*}(\omega) \\
\mathrm{S}_{\mathrm{c}}=\mathrm{E}(\omega) \mathrm{E}^{*}(\omega) \\
\mathrm{S}_{\mathrm{xc}}=\mathrm{X}(\omega) \mathrm{E}^{*}(\omega) \\
\text { Cohxe }=\frac{\left|\mathrm{S}_{\mathrm{xe}}\right|^{2}}{\left|\mathrm{~S}_{\mathrm{x}} * \mathrm{~S}_{\mathrm{e}}\right|}
\end{array}$$