2019 NeurIPS少样本学习研究精华解析

发布时间：浏览：62

大家好，关于2019 NeurIPS少样本学习研究精华解析很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于的知识点，相信应该可以解决大家的一些困惑和问题，如果碰巧可以解决您的问题，还望关注下本站哦，希望对各位有所帮助！

基于以上限制，few-shot vid2vid 方法提出在测试阶段喂给模型少量目标样本的图像，学习合成未见过的目标个体或者场景的对应视频。参考右图示意，不需要为每个人和每个特定场景都寻找大量的训练样本来合成视频，对于未知个体，可以通过 few-shot vid2vid 模型本身的场景泛化能力，使得测试阶段提供少量目标图像就可以合成同样的真人运动视频。相较于已有的 vid2vid 工作，few-shot vid2vid 工作的亮点集中于：1. 除了人体姿态的语义视频，额外增加了少量目标真人的图片作为模型测试阶段的额外输入。2. 使用了新颖的网络参数生成（Network Weight Generation）机制, 利用这少量的目标图片训练了一个模块来生成网络对应的参数。结合架构图，我们可以进一步了解 few-shot vid2vid 框架的详细设计：

简化地说，vid2vid 任务的学习目标就是模拟一个映射函数 F（mapping function）将语义视频的输入序列 S 映射转换为合成视频输出序列 X』，同时合成结果 X』的条件分布（conditional distribution）令其跟真实目标 X 的条件分布尽可能接近（简单说输出目标视觉上应该与真实目标是一致的）。为了学习这个条件分布，现有工作通过一个简单的马尔科夫假设（Markov assumption），构建了一个序列生成模型 F（sequential generative model）来学习生成我们的目标输出序列, 生成模型 F 通常有几种不同的建模方式，在文章里沿用了大多数 vid2vid 工作 (Fig a) 采用的图像提取方程（image matting function）：

作为进一步延伸，few-shot vid2vid 的合成函数多了图像样本（sample e）加上语义样本（semantic sample se）两个额外输入：

要得到目标输出的合成结果 X，函数计算的核心模块为软掩盖图 m（soft occlusion map），多帧图像构成的光流 w（optical flow），以及半合成图像 h（synthesized intermediate image），三个模块带入到深度学习，又可以被表示为一个个神经网络参数化后的计算函数（计算模块）为 M,W,H，其涉及的参数都可以被网络学习并且在完成训练之后固定：

few-shot vid2vid 在整体框架上仍然沿用了目前的 SOTA 方法，保留了光流预测模块子网络 W 以及软掩盖图预测模块子网络 M。而考虑到我们的额外少量目标图片输入，few-shot vid2vid 集中优化了中间图像合成的模块 H（Fig b, c），用一个语义图像合成模型 SPADE 作为图片生成器取代了原先工作中的生成模型，SPADE 模型包含多个空间微调分支（spatial modulation branch）以及一个主要的图像合成分支，同时提出一个额外的网络参数生成模块 E（network weight generation module），使用该模块 E 作用于每个空间微调分支，来抽取一些视频内存在的有用模式，从而使得生成器能够合成未训练过的场景的视频结果。参考上图中的 b,c 模块，E 分别由 EA,EP,EF 三个子网络模块构成，EF 由多个卷积层组织起来进行图像特征抽取，EA 模块则通过预测软注意力图（soft attention maps）和加权平均（weighted average）操作将多张图像抽得的特征进行糅合，最终得到的糅合表征输入到子网络 EP 当中，使得我们可以得出改良后的 SPADE 生成模块分支，产生生成模型需要学习到的参数Ɵ。

基于如上的整体网络结构，few-shot vid2vid 又包含了诸如基于注意力的聚合方法（attention-based aggregation），图像变形（example image warping），训练与推理过程调整等具体实现中的技巧，在 YouTube dancing videos，Street-scene videos，Face videos 三个公开数据集上做了方法的验证，都取得了目前最好的性能指标。

视觉合成效果上直观来看，无论是人体姿态动作和成，街道场景合成，或者人脸合成任务，few-shot vid2vid 都实现了一个直观而清晰的合成结果，对比其他方法，有比较高的准确度和辨识度。

综合英伟达之前出的一系列生成模型相关论文，这篇 few-shot vid2vid 从少样本学习的角度切入，着眼于生成模型优化并巧妙加入少量目标图像为辅助信息学习条件分布，针对视频合成的高级视觉任务而非目前占比例较高的分类识别任务，最终在几个数据集上结果呈现很不错，作者同步还公开了代码以及一个三分钟的演示小视频，是一篇值得关注的好工作。Paper: https://arxiv.org/pdf/1910.12713.pdfCode: https://github.com/NVlabs/few-shot-vid2vidVideo: https://www.youtube.com/watch?v=8AZBuyEuDqc

Incremental Few-Shot Learning with Attention Attractor Networks

这篇文章研究将少样本增量学习（Incremental Few-Shot Learning）应用到分类问题当中，增量学习（Incremental Learning）作为一种动态的机器学习方法，在不遗忘已学过的知识的同时，能够持续输入新的数据来扩展现有模型，对于增量学习陌生的读者可以参考我们之前的文章（https://www.jiqizhixin.com/graph/technologies/09134d6a-96cc-409b-86ef-18af25abf095）。对于一般的深度分类模型来说，训练学习过程都是根据固定类别来进行的，然而实际的应用场景中随着业务的迭代，持续的新增学习类别是非常常见的，同时很难做到每个类别可用数据都充分且平衡，此时怎样固定记忆住已学会的种类，同时更好的识别新增的少样本类别，就是一个少样本增量学习问题。为了解决少样本增量学习的分类任务，文章提出一个基于元学习（meta learning）的注意力吸引网络（Attention Attractor Network，AAN），结合循环式反向传播，训练新增类别直到其收敛，之后在所有的分类类别（固有类别以及新增类别）的验证集上做分类性能评估。

得到了整体的优化目标函数（文中 cheng 为 Episodic Objective，情节目标）。我们考虑在学习过程中，模型参数 W 的本质就是要最优化新增类别的预测，那么针对局部的每个节点训练后的验证过程，直接后果就是固有类别的性能无法保证，如果直接令上述优化目标函数的正则项 R 为 0 或者简单用权重衰减（weights decay）策略，那么就会造成灾难性的固有类别遗忘问题。基于此种考虑，上面提到的目标函数重要的一项，就是通过引入注意力吸引网络（AAN）作为优化的正则项 R，将固有类别的一些信息特征进行编码，之后参数化为恒用参数（low weights）存储使用，并通过整个 AAN 结构来最小化学习元参数Ɵ，

其中正则项 R（W,Ɵ）也正是 AAN 网络中的一个核心点，其公式如下：

式子中的 u_k 也就是 AAN 中所谓的 attractor 部分，W 则是提过的权重参数，通过基于 Mahalanobis 距离平方和外加一个偏置项，我们的正则部分 R 就可以实现单一地从新类别中获取学习信息的这一过程，并且避免提到过的类别遗忘问题。

另一方面，由于节点式元学习的目标函数并不是闭式的（closed-form），参数更新和目标函数优化存在于每一个节点学习中，所以具体实现过程中该论文借鉴了时序性反传（Back-Propagation Through Time，BPTT）的思想，使用了递归反传算法（Recurrent Back-Propagation，RBP）做到有效的参数迭代学习。至于试验阶段，文章在少样本学习两个知名的 benchmark 数据集上 mini-ImageNet 与 tiered-ImageNet 上验证了提出算法的有效性，同其他方法类比达到了 SOTA 的效果。

文章整体算法流程的伪代码总结如下图：

总的来说，文章研究的增量学习面对少样本数据的情况是一个具有实际应用意义的问题，文章研究的对少样本的学习用增量迭代的方式递进也是非常有趣的一个思路。目前该工作的代码也已开源，除了在标准的给定数据集上跑分，感兴趣的读者也可以进一步考证其在实际场景应用下的实用性，与此同时受该工作启发，之后的相关工作是否能够结合类别之间的语义关联性，更有效地做少样本的递进增量学习或许也是我们值得期待的一个潜在方向。Paper: https://papers.nips.cc/paper/8769-incremental-few-shot-learning-with-attention-attractor-networks.pdf_ _Code: https://github.com/renmengye/inc-few-shot-attractor-public

Adaptive Cross-Modal Few-shot Learning

根据如上的场景假设，文章提出一个自适应交叉混合的机制（Adaptive Modality Mixture Mechanism，AM3）：针对将要被学习的图像类别，自适应地结合它存在于视觉和语义上的信息，从而大幅提升少样本场景下的分类任务性能。具体来说，自适应的 AM3 方法并没有直接将两个信息模块对齐起来然后提供辅助，也没有通过迁移学习转化语义信息作为视觉特征辅助（类似视觉问答 VQA 任务那样），而是提出更优的方式为，在少样本学习的测试阶段独立地处理两个知识模块，同时根据不同场景区分适应性地利用两个模块信息。比如根据图像所属的种类，让 AM3 能够采用一种自适应的凸结合（adaptive convex combination）方式糅合两个表征空间并且调整模型关注侧重点，从而完成更精确的少样本分类任务。对于困难样本，在上图左边不同类别视觉相似度高的情况下，AM3 侧重语义信息（Semantic modality）从而获得泛化的背景知识来区分不同类别；而上图右边同类别图片视觉差距大的情况下，AM3 模型侧重于视觉信息（Visual modality）丰富的局部特征从而更好捕捉同类图片存在的共性。在对整个算法有初步印象之后，我们结合 AM3 模型示意图来观察更多细节：

首先少样本分类采用的学习方式仍然是 K-way N-shot 的节点学习（episodic training）过程，一方面是来自 N 个类别的 K 张训练图片 S 用作支撑集（Support Set），另一方面是来自同样 N 个类别的测试图片作为查询集 Q（Query Set），并根据分类问题损失定义得到如下参数化的方程为优化目标：

在基础模型网络方面，AM3 采用了一个比较简洁的 Prototypical Network 作为例子，但也可以延伸到其他网络使用：利用支撑集为每个类别计算一个类似于聚类一样的中心聚点（centroids），之后对应的查询集样本只需与每个中心点计算距离就可以得到所属类别。对于每一个节点 e（episode）都可以根据平均每个类别所属支撑样本的嵌入特征得到嵌入原型 Pc（embedding prototype）以及分布的函数 p：

在 AM3 模型里，为了如之前说到的更灵活地捕捉语义空间的信息，文章在 Prototypical Network 的基础上进一步增加了一个预训练过的词嵌入模型 W（word embedding），包含了所有类别的标签词向量，同时修改了原 Prototypical Network 的类别表征，改为同时考虑视觉表达与语义标签表达的结合。而新模型 AM3 的嵌入原型 P』c 同学习函数，用类似正则项的更新方式得到为：

其中，$\lamda$是自适应系数，定义为下式，其中 h 作为自适应混合函数（adaptive mixing network），令两个模态混合起来如 Fig 2(a) 所示

上式 p（y=c|q,S,Ɵ）是作为该节点在 N 个类别上由模型学习到的分布，整体来说是根据查询样本 q 的嵌入表达到嵌入原型直接的距离 d，最终做了一个 softmax 操作得到的。距离 d 在文章中简单地采用了欧氏距离，模型通过梯度下降算法（SGD）最小化学习目标损失 L（Ɵ）的同时，也不停地更新迭代相关参数集合。基于并不复杂的模型，文章在少样本数据集 miniImageNet，tieredImageNet 以及零样本学习数据集上都验证了自己的方法，均取得了非常好的成绩

总的来看 AM3 这个工作也提出了一个非常有意思的少样本学习切入点，即多个空间的信息互相补足与制约，AM3 网络优越性体现在结构的简洁和理论的完整性，目前该工作的代码也已经开源，感兴趣的读者可以进一步探索：除了 Prototypical Network 以外，更复杂的网络以及包含更多的模态信息。Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdfCode: https://github.com/ElementAI/am3

Cross Attention Network for Few-shot Classification

该文提出了一个名为交叉注意力网络（Cross Attention Network）的模型，一方面通过注意力机制建立待分类类别特征与查询样本之间的联系，并且突出目标个体所在区域，同时建立一种名为直推式学习（transductive learning）的半监督推理来解决少样本的数据缺乏困境，最终同样是在两个少样本的标准数据集上取得了性能的提升。Paper: https://papers.nips.cc/paper/8655-cross-attention-network-for-few-shot-classification

Meta-Reinforced Synthetic Data for One-Shot Fine-Grained Visual Recognition

针对少样本细粒度识别分类（one-shot fine-grained visual recognition）任务下缺乏数据的问题，该文提出了用生成网络合成图像数据，利用元学习的方法将其于真实数据混合，放进名为 MetaIRNet(Meta Image Reinforcing Network) 的网络模型训练，最终达到识别效果的提升。Paper: https://papers.nips.cc/paper/8570-meta-reinforced-synthetic-data-for-one-shot-fine-grained-visual-recognition

Dual Adversarial Semantics-Consistent Network for Generalized Zero-Shot Learning

该文针对泛化零样本学习问题（generalized zero-shot learning, GZSL）开创性地提出了一个双重对抗式语义连续网络（Dual Adversarial Semantics-Consistent Network, DASCN），在一个统一的 GZSL 问题框架下，用其学习原生 GAN 与其对偶的 GAN 网络，从而达到更好的任务识别效果。Paper: https://papers.nips.cc/paper/8846-dual-adversarial-semantics-consistent-network-for-generalized-zero-shot-learning

Unsupervised Meta-Learning for Few-Shot Image Classification

这篇文章同样是针对少样本的分类学习问题，提出一种无监督式的元学习模型 UMTRA，并在两个数据集上取得了非常优秀的分类效果。Paper: https://papers.nips.cc/paper/9203-unsupervised-meta-learning-for-few-shot-image-classification.pdf

Transductive Zero-Shot Learning with Visual Structure Constraint

该文提出一般的零样本学习方法都容易在数据分布的原生域（source domain）到目标域（target domain）的映射过程中出现局部偏移（domain shift）导致学习效果不尽如人意。文章借此提出一种新的视觉结构限制（visual structure constrain）来提升映射函数的泛化性，从而避免上述提到的偏移缺点，文章采用了新的训练策略，应用了提出的限制模块，在标准数据集上取得了不错的效果。Paper: https://papers.nips.cc/paper/9188-transductive-zero-shot-learning-with-visual-structure-constraint

Order Optimal One-Shot Distributed Learning

用户评论

熟悉看不清

终于有个好的综述了！我一直对NeurIPS 2019年少样本学习的研究趋势很感兴趣，这篇博客帮我理清很多思路。尤其是那个关于Few-shot Meta Learning的例子，感觉很有潜力。

有16位网友表示赞同！

龙吟凤

这篇博文真的太棒了！能把这么多最新的研究集中在一篇博客里，简直太牛了！让我对低数据环境下的模型训练有了更深入的理解。

有16位网友表示赞同！

七夏i

少样本学习在很多实际应用场景下都非常有用呀！这篇博客分析的很透彻，尤其是那几个案例应用真的很振奋人心！

有15位网友表示赞同！

虚伪了的真心

读完这篇博文后感觉，少样本学习这条路还有很长的路要走。希望未来的研究能突破更多瓶颈，让模型在更小的数据集上也能表现出色。

有10位网友表示赞同！

雪花ミ飞舞

这个总结对NeurIPS 2019少样本学习的研究真是一点都不差！我之前关注的很多论文都在这篇博客里了，看来今年的结果真是令人振奋。不过，对那些更深层的理论模型，我还想找到更多的资料深入研究一下

有13位网友表示赞同！

巷陌繁花丶

这篇博文的内容很有深度，但个人感觉写的有点太专业了，对于一些入门者来说可能会比较难懂。希望能有更多通俗易懂的讲解和案例分析。

有19位网友表示赞同！

灬一抹丶苍白

我更关注的是模型的泛化能力和效率问题，这篇文章中似乎只提到了少样本学习的概念和方法，没有太多关于实际应用情况的论述。希望将来能看到更多针对这些问题的研究成果

有17位网友表示赞同！

Hello爱情风

NeurIPS 2019年は本当に素晴らしい年だったね！少样本学習の研究が大きく進展したよね。这篇ブログは、そのトレンドを分かりやすくまとめてくれてるよ！

有10位网友表示赞同！

服从

这篇博客分析得很到位，让我对少样本学习的未来有了更多的期待，希望能看到更多更成熟的应用场景出现!

有13位网友表示赞同！

裸睡の鱼

不过我个人觉得文章里比较注重理论层面，对于一些实际工程上的问题和挑战，就稍微缺失了一些。希望作者在未来的更新中能多关注这些方面

有15位网友表示赞同！

孤单*无名指

少样本学习是未来发展的趋势吧，这篇博客整理得不错！我现在已经开始尝试学习相关的知识了。希望将来有一天也能自己做点贡献！

有19位网友表示赞同！

迷路的男人

确实，这篇博文对NeurIPS 2019年少样本学习的研究做了很好的总结，但是针对一些热门的模型或算法缺少深入分析，例如GPT-3在少量样本下的表现等等。

有20位网友表示赞同！

余温散尽ぺ

对于我这种入门者来说，这篇博客还是有些难度。我希望能够看到更多通俗易懂的讲解和具体案例描述，这样更容易理解少样本学习的概念和方法。

有8位网友表示赞同！

不忘初心

我觉得这篇文章做得还不错，能够清晰地阐述少样本学习的基本概念和各种应用场景。个人比较关注的是自监督学习在少样本预训练方面的进展，这篇博文也触及了这一点，让我更加感兴趣去深入了解!

有17位网友表示赞同！

無極卍盜

文章分析不错，但对于我来说，想要更深层次的理解，需要结合论文进行进一步阅读！希望作者未来也能分享更多基于少样本学习的实践案例和经验总结

有18位网友表示赞同！

强辩

希望越来越多的研究者加入到少样本学习这个领域中来！相信随着技术的进步，有一天将会解决所有数据量不足的问题！

有10位网友表示赞同！

軨倾词

我非常关注少样本学习在医疗领域的发展前景，这篇博文分析了一些相关研究方向，让我对未来医疗诊断和治疗有了更积极的展望!

有11位网友表示赞同！

热点资讯