Xian Y, Lampert C H, Schiele B, et al. Zero-shot learning-a comprehensive evaluation of the good, the bad and the ugly[J]. IEEE transactions on pattern analysis and machine intelligence, 2018.

这篇论文对当前最好的零样本学习方法做了统一全面的评估。

数据集

AWA1/ AWA2（Animals with Attributes）：AWA1有30475副图像，50个动物类别，85个属性值注释。由于版权问题，此数据集已不可用，使用AWA2代替。AWA2和AWA1类似，有37322副图像。50个动物类别中40个类用于训练，10个类用于测试。

aPY （Attribute Pascal and Yahoo）：15339副图像，32个类别，64个属性值注释，使用Amazon’s Mechanical Turk收集注释。20个类用于训练，12个类用于测试。其中20个Pascal类来自PASCAL VOC 2008数据集，分别为people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike, train, bottle, chair, dining table, potted plant, sofa, tv/monitor。12个Yahoo类的图片来自网络搜索，分别为wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, mug。Yahoo类选择了与20个PASCAL类相似的类别，如“狼”——“狗”，“半人马”——“人”和“马”。

CUB（Caltech-UCSD-Birds 200-2011）：11788幅图像，200种不同类型的鸟类，312个属性值注释。150个类用于训练，50个类用于测试。

SUN：14340幅图像，717种不同类型的场景，102个属性。645个类用于训练，72个类用于测试。

下表为各个数据集具体参数的比较：

实验

常用数据集

论文还提出一种新的数据分割方法，按照之前数据分割方法，部分数据集测试集类别存在于ImageNet 1K类别中，而ImageNet 1K用于了CNN网络的预训练，这种重叠的测试集类别会造成准确率升高，造成数据集评估时的不公平。新的数据分割方法将这些分类移除，确保测试类没有出现在ImageNet 1K中。下表为各种零样本学习方法在5个数据集的表现。SS为旧的数据分割方法，PS为论文提出的新的数据分割方法。结果为Top-1准确率。依据论文提出的分割方法来看，表现最好的零样本学习方法在最常用的AWA1数据集的Top-1准确率为68.3%。

ImageNet

下图为零样本学习方法在ImageNet上的实验结果，训练集类别选择ImageNet 1K，测试集类别选择ImageNet其他的类别。表现最好的方法在Most Populated测试集类别的Top-1准确率为15.83%。

通用零样本学习

在现实世界的应用中，图像分类系统无法预先得之新图像来自训练集类别还是测试集类别，所以产生了通用零样本学习。论文同样使用零样本学习的方法检测性能。下表为零样本学习方法在通用零样本学习设定下的性能，其中ts为测试集不可见类别的准确率，tr为测试集可见类别的准确率（例如训练集类别为A/B/C，测试集类别为B/C/D，则ts为测试集D的准确率，tr为测试集B/C的准确率）。H为ts和tr的调和平均数。

下图为通用零样本学习在ImageNet的表现结果，可以看出无论时常用的数据集和ImageNet，通用零样本学习的效果要远低于零样本学习。

数据集#

实验#

常用数据集#

ImageNet#

通用零样本学习#

数据集

实验

常用数据集

ImageNet

通用零样本学习