回声消除的评价准则

（1）回声返回损耗增益

回声返回损耗增益（Echo Return Loss Enhancement，ERLE）是回声消除特有的评价准则，它表示回声信号%d(n)%与残留回声信号%e(n)%的比值，值越高性能越好。表达式为

$$\mathrm{ERLE}=10 \log _{10}\left\{\frac{\sum_{1}^{L} d^{2}(n)}{\sum_{1}^{L} u^{2}(n)}\right\}$$

（2）语音质量感知评价

语音质量感知评价（Perceptual Evaluation of Speech Quality，PESQ）算法是由ITU在2001年提出的一种新的语音信号质量客观评价算法，用来表达语音信号的频率和响度等物理特征。PESQ应用的是线性评分制，其分值取值范围在-0.5~4.5之间，PESQ的分值越高则代表语音信号的质量越好，在实际情况中，若PESQ的分值小于等于2分，则代表语音信号的质量较差。

（3）SuppFactor(能量衰落因子)

AEC后输出能量与对应麦克风信号能量的比值。

$$\operatorname{SuppFactor}=\frac{\mathrm{E}\left[|\mathrm{e}|^{2}(\mathrm{n})\right]}{\mathrm{E}\left[|\mathrm{x}|^{2}(\mathrm{n})\right]}$$

(4)cohde(输出信号e(n)与麦克风信号d(n)的频谱相关性)

该值越接近1，说明输出信号中保留的麦克风信号频谱越多。考虑到麦克风信号$d(n)$主要由回声信号$y(n)$和近端语音$v(n)$构成，因此只有近端单讲情况下cohde的值才能接近1，双讲情况下cohde的值在0.5～0.9（取决于回声信号在该帧的占比），当cohde接近0时说明输出信号几乎不包含任何近端语音和回声的频谱成分。其计算公式如下：
$$\begin{array}{l}
\mathrm{S}_{\mathrm{d}}=\mathrm{D}(\omega)\mathrm{D}^{*}(\omega) \\
\mathrm{S}_{\mathrm{c}}=\mathrm{E}(\omega) \mathrm{E}^{*}(\omega) \\
\mathrm{S}_{\mathrm{dc}}=\mathrm{D}(\omega) \mathrm{E}^{*}(\omega) \\
\text { Cohde }=\frac{\left|\mathrm{S}_{\mathrm{dc}}\right|^{2}}{\left|\mathrm{~S}_{\mathrm{d}} * \mathrm{~S}_{\mathrm{c}}\right|}
\end{array}$$

(5)cohxe(输出信号e(n)与远端参考信号x(n)的频谱相关性)

该值越接近0，说明输出信号中残留的远端参考信号频谱越少，回声消除越彻底，其计算公式如下

$$\begin{array}{l}
\mathrm{S}_{\mathrm{x}}=\mathrm{X}(\omega) \mathrm{X}^{*}(\omega) \\
\mathrm{S}_{\mathrm{c}}=\mathrm{E}(\omega) \mathrm{E}^{*}(\omega) \\
\mathrm{S}_{\mathrm{xc}}=\mathrm{X}(\omega) \mathrm{E}^{*}(\omega) \\
\text { Cohxe }=\frac{\left|\mathrm{S}_{\mathrm{xe}}\right|^{2}}{\left|\mathrm{~S}_{\mathrm{x}} * \mathrm{~S}_{\mathrm{e}}\right|}
\end{array}$$

(6)不同通话状态对应的参数指标

近端单讲（最大程度保持输出与麦克风信号一致）

cohde：越接近1说明输出与麦克风信号越相似，越接近0说明两者差异越大，近端单讲时理想值为1。 cohxe：越接近1说明输出与远端参考信号越相似，越接近0说明两者差异越大，即残留的远端参考信号频谱成分越少，理想值为0。 SuppFactor：越接近1说明输出与麦克风信号的能量越接近，越接近0说明AEC造成能量衰落越严重，近端单讲时理想值为1。

远端单讲（最大程度抑制回声）

ERLE：值越大越好，则表明残留回声的能量相对值越小，回声抵消效果越好。 cohde：越接近1说明输出与麦克风信号越相似，越接近0说明两者差异越大，远端单讲时理想值为0。 cohxe：越接近1说明输出与远端参考信号越相似，越接近0说明两者差异越大，即残留的远端参考信号频谱成分越少，理想值为0。 SuppFactor：越接近1说明输出与麦克风信号的能量越接近，越接近0说明AEC造成能量衰落越严重，远端单讲时理想值为0。

双讲（尽量抑制回声同时保留近端语音）

cohde：越接近1说明输出与麦克风信号越相似，保留的近端语音频谱成分也越多；越接近0说明两者差异越大，保留的近端语音频谱成分也越少，双讲时理想值为0.5～0.9（取决于回声信号在该帧的占比）。 cohxe：越接近1说明输出与远端参考信号越相似，越接近0说明两者差异越大，即残留的远端参考信号频谱成分越少，双讲时理想值为0。 SuppFactor：越接近1说明输出与麦克风信号的能量越接近，越接近0说明AEC造成能量衰落越严重，双讲时理想值为1。

标签：麦克风,回声,准则,接近,信号,评价,omega,mathrm
From： https://www.cnblogs.com/joffrey/p/16588345.html