半监督学习定义:使用大量无标签样例和少量有标签样例进行学习。

出现的原因:在许多实际应用中(如自然语言处理、计算机视觉和生物学等领域),无类标签的样例很容易得到,而对样例的标记代价昂贵。

分类:从统计理论上看,半监督学习可以分为直推式(Transductive)和归纳式(Inductive)两类模式。直推式学习只处理样本空间内给定的训练数据(无标签+有标签),基于“封闭世界”的假设,不具备泛化能力。而归纳式学习需要处理未知的样例。两种学习可用开卷考试(直推式学习)和闭卷考试(归纳式学习)做类比。从学习场景来看,可分为半监督分类、半监督回归、半监督聚类和半监督降维。

下面主要讨论半监督分类,半监督分类主要有以下几种方法:

生成式方法

生成模型假设数据由某组概率分布生成。使用大量未标记的数据,可以识别数据集分布。

基于分歧的方法

自训练:首先使用少量标记数据训练分类器。然后使用分类器对未标记的数据进行分类。通常使用置信度最高的类别作为预测标签,加入训练集中。

协同训练:假设每个数据可以从不同的角度/视图(view)进行分类,不同视图可以训练出不同的分类器。例如在网页分类问题中,网页拥有两个独立视图:超链接和网页内容,这两个视图任意一种都可唯一确定一个网页。协同训练的过程是,在有类标签的样本的两个不同视图上分别训练,得到两个不同的学习机,然后用这两个学习机预测无类标签的样例,每个学习机选择预测置信度最高分类的样例,加入另一个学习机的样本集中,从而相互学习,达到最佳性能。

该方法需要满足两个假设:

充分冗余假设:即给定足够数量的有类标签样本,每个视图都能通过训练产生最优学习器。 条件独立假设:即每个视图的类标签都独立于另一视图。

判别式方法

利用最大间隔算法学习决策边界,使其通过低密度数据区域。代表性的方法是Transductive SVM(TSVM),其目标是是找到未标记数据的标记,使得决策边界在有标记数据和未标记数据上具有最大边界。

基于图的方法

用图的结点表示样例,图的边表示样例间的距离。利用图的邻接关系将类标签从有类标签的样本向无类标签的样例传播。

参考文献:

Semi-Supervised Learning Literature Survey

半监督学习方法