言语交流是进行社交互动的重要方式。正常的说话过程要求脸部和颈部的大量关节肌肉协调收缩。
包含与说话活动相关的电生理信息的表面肌电图(sEMG)信号通常被视为自动语音识别的替代输入。
由中国科学院深圳先进技术研究所(SIAT)陈世雄教授领导的研究小组提出了一种高密度(HD)sEMG技术,该技术使用密集的单个电极阵列在相对较大的区域进行肌肉活动具有丰富的信息以进行适当的运动分类。
在基于sEMG的语音识别系统中,用于记录sEMG信号的电极位置是影响自动语音识别分类性能的主要因素。但是,在以前的研究中,电极的放置取决于各个研究人员的知识,而无需事先进行定量分析或基准标准。
Chen的团队在用英语和中文分别对口语任务中的日常单词进行分类时,分析了sEMG信号在面部和颈部肌肉左右两侧之间的贡献。
在他们的研究中,高清sEMG信号由表面电极记录,该电极有来自八名受试者的面部和颈部肌肉的120个通道。
从面部和颈部肌肉左侧和右侧的电极阵列记录下来,与高清sEMG记录的信号相比,在识别说话任务时获得了分类精度。
结果表明,使用高清sEMG记录从颈部的左侧和右侧获得了相似的分类精度。相反,在使用来自左右面部肌肉的信号之间的分类准确性上出现了显着差异。
陈教授说:“来自颈部对称位置的高清sEMG信号在语音识别中的作用是一致的,而面部信号则不同。”