Xian Y, Lampert C H, Schiele B, et al. Zero-shot learning-a comprehensive evaluation of the good, the bad and the ugly[J]. IEEE transactions on pattern analysis and machine intelligence, 2018.

这篇论文对当前最好的零样本学习方法做了统一全面的评估。

数据集

AWA1/ AWA2(Animals with Attributes):AWA1有30475副图像,50个动物类别,85个属性值注释。由于版权问题,此数据集已不可用,使用AWA2代替。AWA2和AWA1类似,有37322副图像。50个动物类别中40个类用于训练,10个类用于测试。

aPY (Attribute Pascal and Yahoo):15339副图像,32个类别,64个属性值注释,使用Amazon’s Mechanical Turk收集注释。20个类用于训练,12个类用于测试。其中20个Pascal类来自PASCAL VOC 2008数据集,分别为people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike, train, bottle, chair, dining table, potted plant, sofa, tv/monitor。12个Yahoo类的图片来自网络搜索,分别为wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, mug。Yahoo类选择了与20个PASCAL类相似的类别,如“狼”——“狗”,“半人马”——“人”和“马”。

CUB(Caltech-UCSD-Birds 200-2011):11788幅图像,200种不同类型的鸟类,312个属性值注释。150个类用于训练,50个类用于测试。

SUN:14340幅图像,717种不同类型的场景,102个属性。645个类用于训练,72个类用于测试。

下表为各个数据集具体参数的比较:

实验

常用数据集

论文还提出一种新的数据分割方法,按照之前数据分割方法,部分数据集测试集类别存在于ImageNet 1K类别中,而ImageNet 1K用于了CNN网络的预训练,这种重叠的测试集类别会造成准确率升高,造成数据集评估时的不公平。新的数据分割方法将这些分类移除,确保测试类没有出现在ImageNet 1K中。下表为各种零样本学习方法在5个数据集的表现。SS为旧的数据分割方法,PS为论文提出的新的数据分割方法。结果为Top-1准确率。依据论文提出的分割方法来看,表现最好的零样本学习方法在最常用的AWA1数据集的Top-1准确率为68.3%。

ImageNet

下图为零样本学习方法在ImageNet上的实验结果,训练集类别选择ImageNet 1K,测试集类别选择ImageNet其他的类别。表现最好的方法在Most Populated测试集类别的Top-1准确率为15.83%。

通用零样本学习

在现实世界的应用中,图像分类系统无法预先得之新图像来自训练集类别还是测试集类别,所以产生了通用零样本学习。论文同样使用零样本学习的方法检测性能。下表为零样本学习方法在通用零样本学习设定下的性能,其中ts为测试集不可见类别的准确率,tr为测试集可见类别的准确率(例如训练集类别为A/B/C,测试集类别为B/C/D,则ts为测试集D的准确率,tr为测试集B/C的准确率)。H为ts和tr的调和平均数。

下图为通用零样本学习在ImageNet的表现结果,可以看出无论时常用的数据集和ImageNet,通用零样本学习的效果要远低于零样本学习。