迁移学习研究者近两年来一股脑的涌向对抗网络,然而迁移学习本身的理论和算法体系并不完整。
Cham’s Blog 首发原创
学习迁移(Transfer of learning)作为教育心理学中的一个基本概念,是教学过程中培养学生联想思维和创造性思维的关键,对于人类适应新环境、解决新问题具有重要意义。新事物是无穷无尽的,光靠从过往知识中模仿和搜索经验是不可靠的,于人类如此,于算法模型亦是。迁移学习(Transfer Learning)的重要意义就在于提高模型的泛化和适应能力,迁移学习的算法设计者扮演的角色就是教会模型学习迁移。
学习迁移的分类 & 迁移学习的理论
1.正迁移、负迁移和零迁移 根据迁移的影响效果进行划分。正迁移指一种学习对另一种学习起到积极的促进作用。负迁移指两种学习之间的相互干扰、阻碍。零迁移指两种学习间不存在直接的相互影响。在教学过程中,运用比较的方法,突出新旧知识之间的异同点,形成新的更为高度的知识分化结构,尽量避免负迁移的产生。
联系:关注负迁移的遏制,关注源域和目标域的差异性,迁移过程中遏制不同点的迁移,比如学习成绩和追女孩子这两种情况,特征空间里面都会存在努力付出,但是并不代表付出就会追上,因为后者的特征空间和标签空间不是同一个对象,会涉及到个体差异
2.水平迁移和垂直迁移 根据迁移内容的不同抽象和概括水平划分。水平迁移是指处于同一抽象和概括水平的经验之间的相互影响,学习内容之间的逻辑关系是并列的。垂直迁移指处于不同抽象、概括水平的经验之间的相互影响,表现在两个方面,自下而上、自上而下的迁移。前者指下位的较低层次的经验影响着上位的较高层次的经验的学习;自上而下的迁移,即上位的较高层次的经验也影响着下位的较低层次的经验的学习。
联系:同构和异构迁移
3.顺向迁移和逆向迁移 根据迁移的时间顺序进行划分。如果是前面的学习影响后面的学习,则称为顺向迁移(forward transfer),大部分的迁移都属于此类迁移。逆向迁移(backward transfer)指后面的学习影响前面学习所形成的经验结构,使原有的经验结构发生一定的变化,即得到充实、修正、重组或重构等。
联系:这一点相当于模型训练和模型在线修正
4.一般迁移和具体迁移 根据迁移内容进行划分。一般迁移也称普遍迁移,是将一种学习中习得的一般原理、方法、策略和态度等迁移到另一种学习中去。具体迁移也称特殊迁移,指一种学习中习得的具体的、特殊的经验直接迁移到另一种学习中去,或经过某种要素的重新组合迁移到新情境中去。特殊迁移的范围往往不如一般迁移广,但其对于系统掌握某一领域的知识是非常重要的。
联系:一般迁移可以理解为辅助源域数据很多,目标域数据少;特殊迁移可以理解为目标域数据多,源域数据少
5.同化性迁移、顺应性迁移与重组性迁移 根据学习者原有的认知结构、认知经验与认知系统进行划分。在学习的过程中,如果学习者的原有认知结构没有发生改变,直接将原有的认知经验应用到本质特征相同的一类事物中去,这类迁移就叫同化性迁移;学习者需调整原有的经验或对新旧经验加以概括,形成一种能包容新旧经验的更高一级的认知结构,才能适应外界的变化,这类迁移叫做顺应性迁移;学习者需要重新组合原有认知系统中某些构成要素或成分,调整各成分间的关系或建立新的联系,从而应用于新情境,这类迁移叫做重组性迁移。
联系:相当于模型的训练过程中的参数学习
学习迁移的因素 & 域的可迁移性
影响学习迁移的主要因素
(一)相似性:相似性包括学习材料的相似性;学习目标与学习过程的相似性;态度、情感以及学习中的环境线索等的相似性等。一般而言,较多的共同成分将产生较大的相似性,并导致迁移的产生。
(二)原有认知结构:原有的认知结构的特征直接决定了迁移的可能性及迁移的程度。 1.学习者是否拥有相应的背景知识,这是迁移产生的基本前提条件。已有的背景知识越丰富,越有利于新的学习,即迁移越容易。 2.原有的认知结构的概括水平对迁移起到至关重要的作用。一般而言,经验的概括水平越高,迁移的可能性越大,效果越好;经验的概括水平越低,迁移的范围越小,效果也越差。 3.学习者是否具有相应的认知技能或策略以及对认知活动进行调节、控制的元认知策略,也影响着迁移的产生。掌握必要的认知策略和元认知策略,是提高迁移发生可能性的有效途径。
联系:评价一个域的可迁移性也是如此,迁移是两个域在某个模型下发生的,因此两个域本身的相似性,包括特征空间、标签空间、分布规律、高阶特征等,学习者的背景知识可以理解为是目标域上是否有带标签的数据以及针对该种类型数据合适的分类器,经验的概括水平可以理解为特征的抽象程度以及常用的子模型,学习者的认知策略是评价模型作用后对源域可迁移性的修正。
促进迁移的教学 & 提高数据迁移能力
学生迁移能力的形成有赖于教学,如果教学的效果能够使学生从一种课程最大限度地迁移到其他课程,或者从学校生活迁移到社会生活,这样的教育和教学是事半功倍的。促进迁移的有效教学应从以下几方面考虑:
联系:学习迁移教学的目的,知识相当于源域,新事物和新环境相当于目标域,教学和学生学到的知识相当于模型
1.精选教材 教师并不是把一门学科的全部内容都教给学生,这是不可能的,也是没必要的。要想使学生在有限的时间内掌握大量的有用的经验,教学内容就必须精选。因此,在教学过程中应选择那些具有广泛迁移价值的教学成果作为教材的基本内容, 而每一门学科中最基本的知识(如基本概念、基本原理)、技能和行为规范具有广泛的适应性,迁移价值较大。
联系:相当于基于实例的迁移,给重要的样本较大的权重,可有效节约计算成本,提高可迁移性,所以数据的可迁移性的关键点之一在于源域中保留尽量多的和目标域相关的样本和特征。基本概念和基本原理相当于某个域的基本特征或者建立模型所需要的基本原理
2.合理编排教学内容和教学程序 编排教材要做到使教材结构化、一体化、网络化。结构化是指教材内容的各构成要素具有科学的、合理的逻辑关系,能体现事物的各种内在关系,如上下、并列、交叉等关系。一体化指教材的各构成要素能整合为具有内在联系的有机整体。网络化是一体化的引申,指教材各要素之间上下左右、纵横交错联系要沟通,要突出各种基本经验的连接点、连接线。合理编排的教学内容是通过合理的教学程序得以体现实施的,教学程序是使有效的教材发挥功效的最直接的环节。教学程序主要包括两个方面:一是宏观方面,即先学什么,后学什么,学习的先后程序要确定。二是微观方面,即每个单元、每一节课的教学程序的安排。
联系:教学内容的顺序和程序相当于模型的组成结构安排。因为人的迁移能力是多方面的,所以不同知识之间需要融合,但是对于模型来说,这就相当于子模型之间的组合规律,比如正则化、二阶对齐等各种约束的权重。
3.教授学习策略,提高迁移意识性 学习不仅是掌握知识与技能,还要掌握一定的学习策略和方法。教师在传授知识与技能的同时,还必须使学生了解在什么条件下如何迁移所学的内容,迁移的有效性如何等。为了促进学习迁移,教师必须重视对学习方法的指导,把学习策略作为一项重要的教学内容突出出来。
联系:模型的迁移性能和分类精度之间的权衡,提高模型的分类或者回归性能的同时,也要注意该模型的可迁移性,设立评价指标,将其作为模型本身的一部分
知识与知识的学习 & 模型与模型的修正
知识可以理解为拥有什么条件做判断,如何做才能实现两种,对应分类和回归。知识的学习包括知识的获得、保持与运用,新信息进人短时记忆,与来自长时记忆系统的原有知识建立一定的联系,并纳人原有的认知结构;知识在保持过程中,如果不加以复习和运用,会发生遗忘性同化;如果经常得到复习和运用,则会加深对知识的理解程度,使已有的认知结构不断优化;知识的应用是在知识的理解和巩固的基础上进行的,又起到检验和促进作用。
奥苏贝尔提出了三个主要的影响迁移的认知结构变量,即可利用性、可辨别性和稳定性。 1.原有知识的可利用性 当学习新的知识时,如果在学生原有知识结构中能找到适当的可以用于同化新知识的原有知识(包括概念、命题或具体例子等),那么该学生的认知结构就具有原有知识的可利用性。
2.新旧知识的可辨别性 新旧知识的可辨别性是指利用旧知识同化新知识时,学习者意识到旧知识与新知识之间的异同点。如果新的学习任务不能同认知结构中原有的观念清楚地分辨,那么新获得的意义出于减轻记忆负担的目的,很快就会丧失。新的意义被原有的稳定的意义所代替,从而遗忘就出现了。只有存在可以区分的变式或者包容范围较广的原有意义时,新的意义才有长期保持的可能性。
3.原有知识的稳定性/巩固性 当学习者面临新的学习任务时,他的认知结构中原有起固定作用的观念应十分巩固。利用及时纠正、反馈、过度学习等方法,可以增强原有的起固定作用的观念的稳定性。原有知识的稳定性有助于新的学习与保持。
联系:知识的建立过程对于人也是一个复杂的过程,需要可利用、可辨别、具有稳定性,所以人类具有遗忘机制和抽象机制,记住最重要和最简化的规律,以指导生活,同样于机器也是如此,当然这就是不同的算法和模型。有趣的是遗忘机制,显然在有限的存储和计算资源下,选择更有用的数据、更抽象知识,则其可迁移性就越大,也就是说其利用价值更大,如同注意力机制
参考: