自监督学习的一些思考-白红宇

自监督学习的一些思考

阅读量：547 次

发布时间：2019-03-09

本文共 2739 字，大约阅读时间需要 9 分钟。

自监督学习：从任务设计到知识学习的arta

在机器学习领域，自监督学习正逐渐成为研究的热点。随着现有的有监督学习问题逐渐达到成熟阶段，数据的获取与标注成本日益升高，如何以无标注数据有效学习信息便成为重要课题。自监督学习以其丰富的想象空间，为解决这一问题提供了重要的解决方案。在本文中，我们将深入探讨自监督学习的定义、其与其他学习类型的区别、如何利用自监督任务学到新知识，以及任务设计中的关键要点。

一、三大核心问题

1. 什么是自监督学习？

自监督学习是指机器学习中的标注来源于数据本身，而非人工标注的学习范式。自监督学习首先属于无监督学习范式，因其目标不需要依赖人工标注。与传统的无监督学习不同，自监督学习通过设计特定的任务（即代理任务）来引导模型学习数据中的深层语义信息。这种方式不仅可以提升模型的表示能力，还能在没有标注的情况下发现数据中的潜在模式。

2. 自监督学习的两大主要分支

自监督学习主要分为两大类：基于特定任务的自监督学习，以及基于表征学习的自监督学习。

特定任务自监督学习：这个范畴下，研究者针对特定的视觉任务（如遮挡去除、深度估计、光流估计、图像关联点匹配等）设计自监督任务。通过完成这些任务，模型能够学习到与任务相关的深层视觉特征。

表征学习自监督学习：这个方向关注模型如何从数据中自动学习一般化的视觉表征。相比于特定任务，表征学习更注重模型能够适应各种任务的稳健性。典型的代理任务包括图像分类、旋转预测、Jigsaw拼图、运动传播等。这些任务通过数据本身的结构（如图像的空间连贯性、运动的时空连贯性等）来引导模型学习。

3. 如何判断一个任务属于自监督学习

要判断一个任务是否属于自监督学习，除了无需人工标注这一标志外，还需要满足以下条件：任务需要引导模型学习新的知识。以图像补全任务为例，一个任务如果仅关注如何生成更逼真的图像而不注重通过这个过程学习图像的深层语义特征，则不属于自监督学习。但如果任务的目标是借助补全过程来学习图像的上下文信息，则可以视为自监督学习（如参考论文【1】）。

二、自监督任务的设计要点

成功设计一个自监督任务需要综合考虑多个因素。

1. 避免捷径任务设计

在设计任务时，必须避免给模型过简单的捷径。以Jigsaw拼图任务为例，如果让模型仅需要判断图像 patches 是否紧密排列，就可能无法学习到高阶语义特征。因此，需要在 Task设计中主动破坏图像的连贯性（如加入随机间隔、色差、畸变等）以迫使模型去发现图像的高层语义信息。

2. 进一步解决歧义性

大多数基于先验的自监督任务都会面临歧义性问题（如颜色化任务中多种颜色选择可能导致信息不确定性）。解决这一问题的方式包括：

设计低熵先验：选择先验知识具有较低的不确定性（如物体的运动学属性）。

多模态融合：结合图像、运动等多模态信息，增强任务的约束力。

3. 任务难度的平衡

神经网络对简单任务易于学习，对复杂任务容易失去兴趣。因此，任务难度需要合理设计。以Jigsaw拼图任务为例，不同难度的图像需要足够挑战模型，但又不会让模型难以完成任务（图11）。

三、自监督任务的未来展望

我们的世界是有序的，充满了先验知识。视觉信号是这些先验知识的外在反映。深度学习擅长处理高维视觉信号，因此自监督学习的存在和发展是自然而必然的。

从当前的发展趋势看，基于数据内部结构的instance discrimination（如NPID、MoCo、SimCLR等）处于技术领先地位。但未来基于先验的方法也有很大潜力。设计自监督任务时，应该既关注数据的内在结构，也要充分挖掘先验知识。避免陷入只追求某一方法的误区，自监督的想象空间远不止于目前的实现。

参考文献

【1】Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting."Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

【2】Walker, Jacob, Abhinav Gupta, and Martial Hebert. "Dense optical flow prediction from a static image."Proceedings of the IEEE International Conference on Computer Vision. 2015.

【3】Zhan, Xiaohang, et al. "Self-supervised learning via conditional motion propagation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

【4】Noroozi, Mehdi, and Paolo Favaro. "Unsupervised learning of visual representations by solving jigsaw puzzles."European Conference on Computer Vision. Springer, Cham, 2016.

【5】Misra, Ishan, C. Lawrence Zitnick, and Martial Hebert. "Shuffle and learn: unsupervised learning using temporal order verification."European Conference on Computer Vision. Springer, Cham, 2016.

【6】Wu, Zhirong, et al. "Unsupervised feature learning via non-parametric instance discrimination."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

【7】Grill, Jean-Bastien, et al. "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning."arXiv preprint arXiv:2006.07733(2020).

转载地址：http://xudsz.baihongyu.com/

你可能感兴趣的文章

Objective-C实现all subsequences所有子序列算法(附完整源码)