概念

零样本学习(Zero-shot learning,ZSL)利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集。这就需要借助类别的描述,构建语义空间,来建立训练集和测试集之间的联系,从而使得模型有效。ZSL就是让计算机具备人类的推理能力,来识别出一个从未见过的新事物。

一些流行的应用场景如下:

  • 目标类别很多。人类可以识别大量目标类别,但现有数据集所涵盖的类别数量有限。通常,人类可以识别至少30,000个对象类别。然而,为如此大量的类别收集足够的标记样本相当具有挑战性。因此,现有的图像数据集只能覆盖这些类的一小部分。

  • 目标类别稀有。例如细粒度图像分类。假设想要识别不同品种的花,但很难为每个特定的花卉品种收集足够多的样例。许多稀有品种,很难找到样例。

  • 目标类别随时间而变化。如识别某种风格和品牌的产品的图像。由于新款式和新品牌的产品经常出现,对于某些新产品很难找到相应的样例。

  • 在某些特定任务中,标记样例的成本很高。在一些与分类相关的学习任务中,样本标记昂贵且耗时。而现有数据集所涵盖的类别数量有限,并且许多类没有标记的样本。例如,在图像语义分割问题中,训练数据应为像素级标记的图像。另外一个例子是图像描述(image captioning),现有图像文本语料库所涵盖的对象类数量有限。

Wang W, Zheng V W, Yu H, et al. A survey of zero-shot learning: Settings, methods, and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 13.

本文档根据此综述的内容进行分类:

语义空间

语义空间包含有关类的语义信息,是零样本学习的重要部分。根据语义空间的构造方式,分类为工程语义空间(engineered semantic spaces)和学习语义空间(learned semantic spaces)。在语义空间中,每个类都有一个相应的向量表示,称为类原型。

工程语义空间

在工程语义空间中,语义空间的每个维度都是由人类设计的。不同种类的工程语义空间都有其独特的数据源和构建空间的方式。

工程语义空间的优点是通过语义空间的构建可以灵活地使用人类领域知识,缺点是严重依赖人来构建语义空间和类原型。例如,在属性空间中,属性设计需要手工完成,这需要领域专家付出大量的努力。

属性空间

Lampert C H, Nickisch H, Harmeling S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009: 951-958.

这篇论文提出了零样本学习的概念并利用属性空间给出了最初的解决方法。其核心思想是,虽然物体的类别不同,但是物体间存在相同的属性,提炼出每一类别对应的属性并利用若干个学习器学习。测试时对测试数据的属性预测,再将预测出的属性组合,对应到类别,实现对测试数据的类别预测。

具体来说,可以利用一个学习器,学习出一个动物是否具有马的外形,利用第二个学习器学习出一个动物是否具有斑纹,利用第三个学习器学习一个动物是否具有黑白间隔的颜色。当一张斑马的图片分别输入到这三个学习器之后,可以得到这张图片里的动物具有马的外形,斑纹以及黑白间隔的颜色。此时有一张定义好的属性表,表里记录每种动物这三种属性的取值,通过查表的方式,可以将图片对应到斑马这一类别。

词汇空间

词汇空间是由一组词汇项构成的语义空间。如自然语言处理中的词向量,意思相近的词被映射到向量空间中相近的位置。其核心思想在于,将训练标签编码为词向量,基于训练数据和词向量训练学习器。测试时学习器输出为预测的词向量,计算预测结果与未知类别词向量的距离,距离越近属于此类的概率越高。

文本关键字空间

文本关键字空间中,语义空间由从每个类的文本描述中提取的一组关键字构成。文本描述的最常见来源是网站,例如在花卉识别中,可使用花卉数据库或者百科全书来获得每种花卉的文本描述。

学习语义空间

在学习语义空间中,空间的维度不由人设计。每个类的原型向量都是从一些机器学习模型的输出中获得的。在这些原型中,每个维度都没有明确的语义。

学习语义空间的优点是生成它们的过程不需要大量的人工劳动,并且生成的语义空间包含人类容易忽视的信息。缺点是类的原型是从一些机器学习模型中获得的,并且每个维度的语义都是隐含的。这种方式不方便人类将关于类的领域知识结合到原型中。

方法

待续

基于分类器的方法

基于实例的方法

应用及未来

零样本学习已广泛应用于计算机视觉和自然语言处理领域。计算机视觉的图像领域有一般的物体识别以及诸如鸟类和花朵品种的细粒度图像分类、图像分割、人体姿态估计等。自然语言处理领域有双语词典归纳、机器翻译、口语理解等。其他领域有计算生物学、知识表示学习等。

未来方向

通用零样本学习

在零样本学习中,训练集和测试集分类不相交的设定有些不切实际。在许多应用程序中,可见类的样例也可以出现在测试阶段。在通用零样本学习的设定下,测试集含有可见和不可见的类别。由于在测试阶段可见和不可见的类共存,这种情况下的问题更具挑战性。许多零样本方法也在通用零样本学习的设置下进行测试,但它们的表现目前还不如零样本学习。