人工耳蜗言语处理方案
近20年来,多导人工耳蜗随丰电极数目的增加、微型化工艺、电极设计等的改善,逐渐提高病人的言语识别能力。然而,真正起决定因素的改变是在言语处理方案上,从病人的平均结果来看,20世纪80年代初和80年代中的Fo/F2和Fo/F1/F2方案分别获得近20%和40%的开放句子识别率,80年末的MPEAK方案和90年代中推出的SPEAK方案则分别获得近60%和超过80%的开放句子识别率。其他现代言语处理方案,如ACE、CIS、n-of-m、MPS和SAS等,也都取得超过80%的开放句子识别率。
言语处理方案也称为编码策略,它决定如何分析言语信号并如何刺激各电极,它可以大致分为两类,第一类为特征提取方案,如fo/F2、fo/F1/F2和MPEAK方案,其策略是首先提取言语信号中的重要特征,然后再将这些特征传送到不同电极以刺激听神经;第二类为波形(waveform)方案,其策略是将言语信号的波形以不同的方式传送到电极,这类方案又可分为模拟刺激(analog stimulation)方案(如SAS方案)和脉冲刺激(pulsatile stimulation)方案(如ACE、CIS、SPEAK方案等)。
下面对各言语处理方案逐一进行讨沦,透彻理解的这一部分,对于与人工耳蜗有关的各专业人员。是至关重要
1.FO/F2方案 20世纪80年代初Cochlear公司为其Nucleus人工耳蜗装置最早设计的言语处理方案。首先,言语处理器将言语信息的基频(Fo)和第二共振峰(F2)提取,F0决定电极的刺激频率。尸F0的提取是通过一270Hz的低通滤波器和一零交叉检测器(zero-crossing detector)实现的,F2的提取则是通过— 1--4kHz带通滤波器和一零交叉检测器。对带通滤波器的输出进行包络(envelope)提取后便获得F2的振幅(A2),这样,F2的频率将决定在电极束上22个电极中的哪一个被刺激,F2的频率越高,选择的电极越靠近蜗底;反之,F2的频率越低,选择的电极越靠近蜗尖。F0/F2方案首次帮助许多病人获得—定的开放言语识别的能力。
2.Fo/F1/F2方案 几年后,人们在Fo/F2方案中增加第一共振峰(F1)的信息便成了F0/F1/F2方案。此方案在F0/F2方案的基础上添加一300 Hz-1 kHz带通滤波器,其输出送往一零交叉检测器以提取F1的频率。言语处理器根据F1和F2的频率选择两个电极来刺激,5个靠近蜗尖的电极供F1刺激用,剩下15个靠蜗底的电极供F2刺激用。电刺檄脉冲为双相脉冲(biphasic pulse),每相位为200us,F2与F1刺激之间间隔800us,以消减电刺激间的相互作用。刺激速率的决定与上述的厂F0/F2方案相同。 添加F1信息后,病人言语识别显著增高,平均开放句子识别率由Fo/F2方案的16%上升至35%,这一结果与正常听力者依赖于F1和F2进行言语识别的理论基础相吻合。从F0/F2方案到F0/F1/F2方案,病人的辅音识别并无显著改善,这是因为辅音识别多不依赖于F1或F2。由于大多数辅音含有较高频率的信息,下一步在言语处理方案上的发展便是增添高频信息。
3,MPEAK方案 Cochlear公司在20世纪80年代后期推出的MPEAK方案,也称为 MULTIPEAK(意为“多峰”)方案,是在F0/F1/F2方案的基础上添加三个高频段的信息,此三个频段分别为2—2.8kHz、2.8--4kHz和4—6kHz,并分别指定分配于从蜗底数起的第7、第4和第1个电极,电刺激幅度由各频段包络的幅度来决定。与Fo/F1/F2方案相同之处是F0、F1和F2的频率分别由三个零交叉鉴测器提取,提取F2的带通滤波器改为800 Hz一4 kHz。 对于有嗓音声,电脉冲刺激速率由F0决定,且靠蜗底的第1个电极(即4--6khz)不用。而对于无嗓音声,电脉冲速率随机从200-300 Hz任选一值,且F1的电极不用。因此,MPEAK方案总是只有4个电极得到刺激。 MPEAK方案通过增添了三个高频段的信息使得言语信号的F2得到较好的体现,同时许多辅音的高频信息也得到良好的体现。临床实用结果表明,病人使用MPEAK方案后,辅音识别能力明显忧于使用Fo/F1/F2方案,开放句子的识别相对于Fo/F1/F2方案时的识别提高了20%~30%。但是,MPEAK方案的不足之处是与其他特征提取方案(包括Fo/F2,Fo/F1/F2方案)一样,共振峰的提取难免有误差,在噪声环境中更是如此。因此,各种特征提取方案在90年代始被新一代的“波形方案”取代。
4 SMSP方案 20世纪90年代初,推出了一种新型的在言语处理方案--SMSP(spec—tral maxima sound processor,频谱最大值处理器)方案,被推出。SMSP方案从一开始便脱离了上述几种方案提取言语特征的套路,而着重于表达言语信号的波形.故SMSP方案及以下所述的各种方案均被概括为波形方案。 首先,言语信号经过前置放大后送往一组由16个带通滤波器组成的滤波器库,其总频率范围为250Hz--5.4 kHz。每一滤波器的输出经过一包络提取器,即先经过整流(vrectification)然后再经过一200 Hz低通滤波器滤波,以获取各频道包络的振幅。下一步便是选择6个振幅最大的频道用来刺激。SMSP方案运算周期为4ms,每个频道电脉冲刺激速率为250Hz,此与上述的几种特征提取方案相异,即不因言语信号有无噪音而改变刺激速率。 在少量病人的临床资料来看,SMSP方案比上述的各种特征提取方案(即F0/F2,Fo/Fl/F2或MPEAK),在言语识别上,包括元音、辅音、单词及噪音下的句子识别,都有了显著的改善。SMSP方案很快被进一步改良而成为现今应用的SPEAK方案。
5 SPEAK方案 20世纪90年代中期推出的SPEAK(spectral peak,谱峰)力案是在SMSP方案成功经验的基础上做了细微的改进而成的。SPEAK方案使用20个带通滤波器,总的频带由SMSP方案的250Hz--5.4kHz扩大到116-7871Hz。与SMSP方案一样,各带通滤波器的输出经过整流和200Hz低通滤波以提取各包络。在每一运算周期内,10个包络中振幅最大的5—10个被选出来刺激相应的电极。所选最大值的数目取决于声信号的频谱成分,平均为6个。SPEAK方案的电脉冲刺激速率在180Hz到300Hz不等,平均为250Hz左右,其值主要取决于所选最大值的数目及病人个体参数。当声信号频谱较宽时,所选的最大值的数目则较多,因而刺激速率会较低;相反,若声信号的频谱较窄,所选的最大值的数目则较少,因而刺激速率会较高。总的来说,SPEAK方案的平均刺激速率为250 Hz左右。SPEAK 方案的脉冲刺激从蜗底(即高频)的频道向蜗尖(即低频)的频道逐—出现,不同时出现,这便是相间刺激方法,此方法的目的是为了减少频道与频道之间的相互作用或干扰。 SPEAK方案比以前的各力案可提供更多的信息:其一,使用20个滤波器并将频率范围扩大;其二,每运算周期刺激多达10个频道;其三,刺激速率与所选最大值数相互配合,适当调整,以求尽可能保存频谱和时间上的信息。在临床应用中,SPEAK较MPEAK方案明显优越,尤其是在噪声中的言语识别测试上。
6. ACE方案 ACE(advanced confined encoding,高级结合编码)方案与SPEAK方案大同小异,近几年来的临床应用中颇受人工耳蜗患者青睐。ACE方案优于SPEAK方案之处是结合了下面将要介绍的CIS方案高刺激速率的特点,使得各频道电脉冲刺激速率大幅度增加,由SPEAK方案的250Hz左右提升至最大为2 400Hz左右。可供选择的刺激速率为250Hz、500Hz、700Hz、900比、1.2kHz、1.8kHz及2.4 kHz,各频道在每一分析周期内的刺激速率的总和不得超过14.4kHz。从理论上讲,电脉冲速率的增加应能更好地体现言语信号的 时域信息。此外,ACE方案的频率分析频道也由SPEAK的20增加到21(双极耦合构式)或22(单极耦合构式)。供刺激用的所选包络最大值的数目也由SPEAK方案的5-10扩大到1—20。 ACE方案如同其他波形方案一样,不依赖于共振峰的提取,辅音的高频信息也得到良好的体现。因此,高脉冲速率的ACE方案似乎能提供丰富的言语信息。临床应用中,许多人工耳蜗患者从SPEAK方案转换为ACE方案,使得言语识别又进一步提高,但是,仍然有一部分患者偏爱于SPEAK方案
7. n-of-m方案 以上描述的SMSP、SPEAK及ACE方案在很大程度上都属于n-of-m方案的范畴。n—of-m方案的基本特点是:声信号经m个滤波器过滤并提取包络,言语处理器选择n个(n<m)最大的包络来刺激相应的电极。n和m的值可依病人的个体情况而确定。例如,某病人使用一5-of-10(即10之5)方案,那么,在每一运算周期,1o个固定的频道用于声信号处理,其中5个振幅最大的频道将被选出来用于刺激,随着声信号的瞬间变化,5个被选的频道自然也不相同。 n-of-m方案在MED—EL公司的人工耳蜗系统得到应用,与SPEAK方案不同的主要方面是,SPEAK方案首先使用20个频道对言语信号进行滤波(即m=20),然后根据言语信号不同而取不同的包络最大值的数目,在n-of—m方案中,m最大值为12,而且n值是固定的;SPEAK方案使用的电脉冲刺激速率平均约为250Hz,而n-of-m方案使用较高的刺激速率,每个频道的速率超过2kHz。n-of-m方案的效果与SPEAK等方案的效果相当,在某些病人甚至能获得更好的言语识别能力。
8. CIS方案 CIS(连续相间采样)方案自1991年由Wilson等提出后,先后被三大人工耳蜗公司采用沿用至今。他们在应用CIS方案时有细节上 的区别,但基本原理相同。首先.声信号被一组带通滤波器过滤,滤波器的数量即频道数可根据病人的情况而定,Cochlear公司的人工耳蜗系统最多可选12个频道(4,6,8或12个频道),Advanced Bionics公司的人工耳蜗系统一般用8个频道,而MED-EL人工耳蜗系统用12个频道:各频道过滤后的信号被提取包络,cochlear和Advanced Bionics公司的人工耳蜗系统在提取包络时采用整流加低通滤波的方法,而MED—EL公司的人工耳蜗系统采用Hilbert转换(Hilbert transform)的方法。最后,各频道的包络被用来调制电脉冲序列的幅度,调制后的电脉冲序列被送往相应的电极而刺激听神经。 在CiS方案,所有电极的脉冲刺激均不重叠,呈相间分布,CIs方案特点是采用较高的刺激速率。Advanced Bionics的8导人工耳蜗系统的每个频道的刺激速率为813Hz。Cochlear公司的人工耳蜗系统可产生总的刺激速率为14.4 kHz,因此,每个频道的刺激速率则为14 400除以频道数,如一 12导CIS方案,各频道的刺激速率为l.2 kHz。MED-EL公司的人工耳蜗系统采用更高的刺激速率,其12导CiS方案可产生每频道的刺激速率达2.4khz。
9 MPS方案 MPS(multiple pulsatile stimulaticm,多脉冲刺激)方案近年由AdvancedBionics公司的人工耳蜗系统推出并采用。MPS方案在信号处理或电刺激的产生等方面与CiS方案基本一致,惟一不同的是CIS方案中所有频道的电脉冲刺激均无重叠,即呈相间分布,而在MPS方案中,第1导和第5导、第2导和第6导、第3导和第7导、第4导和第8导等四对频道的电刺激重叠,即同时刺激,这样,每频道的刺激速率可高达1625 Hz,比CIS方案的刺激速率提高了1倍。
10.CA方案 CA(compressed analog,压缩模拟)方案与上述的各种脉冲刺激方案不同,为一种模拟刺激方案,CA方案最早用于20世纪80年代初的Incraid公司的4导人工耳蜗装置,现在不再被使用。这里,对CA方案的工作原理做简短的介绍。 麦克风收集的声信号经过自增益控制(AGC后分别送往4个带通滤波器,滤波器的输出经过放大后通过经皮肤插座方式直接送往电极以刺激听神经。 CA方案的效果与其同时代的其他方案(如F0/F1/F2方案)并无差异。CA方案的出发点是将言语信号尽可能多地传送到耳蜗,然后由听神经系统去分析,提取有用的言语信息。但是,听神经对电刺激有效地反应局限于较低频率(如<300 Hz),因此,许多高频的模拟电刺激不一定能达到有效的信息传送的目的。另一个潜在的问题是,CA方案在不同频道的电刺激是同时发生的,因此,各频道之间的相互作用或干扰可能会很大;此外,CA方案在Ineraid人工耳蜗装置的实施是用单极耦合构式,因此,电流扩散范围大,这也可能增多了频道之间的相互作用和干扰,从而不利于病人的言语识别。
11 SAS方案 SAS(同时模拟刺激)方案是目前惟一采用 的模拟刺激方案,近几年来开始用于Advanced Bionics公司的人工耳蜗系统。SAS方案的基本原理与CA方案相同,改良之处包括:频道数可达8导,使用双极耦合构式、电流扩散范围局限化,从而可能有利于避免各频道同时刺激而产生的相互作用或干扰 。最后,各频道输出信号幅度的更新速度非常快,更有效地保存声信号在时域上的细微变化。 从短短几年的临床应用来看,SAS方案与其他现代言语处理方案的效果相当或更胜一筹。Battrner等(1999)报道了22例人工耳蜗患者,其中选择SAS方案的与选择CIS方案的人数各占一半;而Osberger和Fisher(1999)报道的7l例患者中,选择SAS和CIS方案的人数分别占1/3和2/3;结果,SAS方案使用者的言语识别能力略高于CIS方案使用者的。
12.小结 以上描述了多导人工耳蜗采用的各种言语处理方案,从早期的特征提取方案,如Fo/F2,Fo/F1/F2,MPEAK方案;到近年的波形方案,如SMSF,SPEAK,ACE,n-of-m,CIS和MPS方案;从早期的模拟方案(即CA方案),到近年的SAS方案,每一步更新换代都带来显著效果,病人是这些新方案研究开发的直接受益者。 近年来,人工耳蜗病人平均开放式言语识别能力都超过80%,许多患者可用电话进行交淡,这些显著的提高与各家人工耳蜗系统均提供多种言语处理方案的途径分不开。临床结果表明,有些病人选择SAS方案,而另一些病人则选择CIS;有些病人选择ACE,而另一些病人则选择SPEAK:目前尚无法预料哪一种方案最适合某一个病人。因此,人工耳蜗系统能提供多种方案给病人,由病人通过实践应用然后做出决定,选择最佳的方案,这点十分重要。
最后,值得关注的是,无沦使用何种方案,少部分人工耳蜗病人仍不能得到良好的言语识别能力,开放式言语识别的分数从o—100%均有分布,这一巨大的个体差异的源由何来令人费解。这也正是国外多个研究机构目前正努力研究的一个重要课题。对这一关键问题的解答将是帮助那些少部分效果不理想的病人提高言语识别的必经之路。 (徐 立 李永新)
|