[论文]Semi-supervised Audio Classification with Consistency-Based Regularization

发表于2019 Interspeech。

将半监督方法Mean Teacher用于Google Speech Commands和UrbanSound8Ku数据集，其关键在于对音频数据的扰动，包括时间和频率转换、高斯噪声、环境噪声和Mixup，所用的音频数据均被转换为频谱图图像。环境噪声和Mixup两种方法是独立添加的，为防止互相影响。实验结果显示Mixup的效果要好于添加环境噪声。

数据集处理，Google Speech Commands：时长1秒钟，30种不同的语音指令，训练集57886个样例，有标签样例分为600、3000、6000和15000，转换为32×32的频谱图图像；UrbanSound8K Dataset：时长1-4秒钟，10类城市环境声音，使用Kaggle上的5434个有标签样例，再分为训练集和测试集，转换并zero-pad为32×128的频谱图图像。