在数据驱动的机器学习时代,构建泛化能力强的模型需要大量规范、带标注的数据,而数据打标往往代价昂贵且费时,因此对已有的数据和模型进行重用很有必要。传统的机器学习假设这些数据服从相同分布,不再成立。迁移学习 (Transfer Learning) 可以基于不同分布的源域数据进行知识迁移,实现对目标域数据的标定。著名学者吴恩达在 NIPS 2016 的 Tutorial 上曾表示:“在监督学习之后,迁移学习将引领下一波机器学习技术商业化浪潮”。
研究背景
迁移学习目前主要考虑源域和目标域存在的四种情况:不同的特征空间、标签空间、边际概率分布以及条件概率分布。其中大部分研究关注于相同特征空间和标签空间下的概率分布不一致问题。主要的方法有,基于样本加权、特征变换、模型参数和相互关系的迁移,而基于特征变换的迁移对数据的先验假设最弱,是目前研究较多的方向。特征变换迁移学习主要关注最小化不同域的概率分布差异,最大均值差异 (Maximum Mean Discrepancy, MMD) 是其中最常用的分布差异度量。
科学问题
传统 MMD 度量为边际概率 MMD 和条件概率 MMD 的求和 (joint MMD) 或者加权 (balanced MMD),本文提出了一种基于联合概率的判别 MMD 度量 (DJP-MMD),其主要优点为:
- 相比于边际概率与条件概率加权的形式,其估计分布差异理论基础更加合理;
- 在特征变换过程中兼顾了迁移性和判别性的提高。
基于联合概率的判别 MMD 度量和传统 MMD 度量的主要区别如下图。传统 MMD (以 joint MMD 为代表) 假设不同域的边际和条件概率分布不同,主要关注最小化不同域的边际概率 MMD 差异,以及不同域同一类的条件概率 MMD 差异,仅仅考虑了迁移性。而联合概率判别 MMD 度量 (DJP-MMD) 的假设是不同域的联合概率分布不同,通过对联合概率公式的分解,最小化不同域同类别的联合概率分布差异,以及最大化不同类别间的差异,以实现对传统 MMD 度量的改进。

实验结果
为了验证 DJP-MMD 的效果,我们采用了将 DJP-MMD 和最常见的几种基于MMD的迁移学习 TCA、JDA、BDA 共同采用的框架 (正则项加 PCA 约束项) 融合,并将其命名为 joint probability domain adaptation (JPDA)。我们在 6 个图像识别数据集上面验证了 JPDA 的性能,JPDA 的表现几乎总是优于 JDA 或者 BDA。下图展示了在人脸识别数据集 Multi-PIE 数据集上,随着迭代次数的增加,MMD 距离和 Acc 变换的曲线,可以看出,DJP-MMD 确实进一步减小了分布差异,并提高了迁移学习的性能。

我们也进行了一些时间复杂度测试以及分割实验,结果表明 DJP-MMD 在 JPDA 框架中时间复杂度相对更低,且基于联合概率的度量的效果优于基于边际和条件的度量。目前该工作还需要在更复杂的框架,比如深度迁移学习中验证其有效性。
相关信息
本工作由华中科技大学人工智能与自动化学院博士生张稳和伍冬睿教授共同完成,发表在 IJCNN 2020。
Wen Zhang, Dongrui Wu. “Discriminative Joint Probability Maximum Mean Discrepancy (DJP-MMD) for Domain Adaptation”, Int’l Joint Conf. on Neural Networks (IJCNN), Glasgow, UK, 2020.