发表于2019 Interspeech。

将半监督方法Mean Teacher用于Google Speech Commands和UrbanSound8Ku数据集,其关键在于对音频数据的扰动,包括时间和频率转换、高斯噪声、环境噪声和Mixup,所用的音频数据均被转换为频谱图图像。环境噪声和Mixup两种方法是独立添加的,为防止互相影响。实验结果显示Mixup的效果要好于添加环境噪声。

数据集处理,Google Speech Commands:时长1秒钟,30种不同的语音指令,训练集57886个样例,有标签样例分为600、3000、6000和15000,转换为32×32的频谱图图像;UrbanSound8K Dataset:时长1-4秒钟,10类城市环境声音,使用Kaggle上的5434个有标签样例,再分为训练集和测试集,转换并zero-pad为32×128的频谱图图像。