博客
关于我
自监督学习的一些思考
阅读量:547 次
发布时间:2019-03-09

本文共 2739 字,大约阅读时间需要 9 分钟。

自监督学习:从任务设计到知识学习的arta

在机器学习领域,自监督学习正逐渐成为研究的热点。随着现有的有监督学习问题逐渐达到成熟阶段,数据的获取与标注成本日益升高,如何以无标注数据有效学习信息便成为重要课题。自监督学习以其丰富的想象空间,为解决这一问题提供了重要的解决方案。在本文中,我们将深入探讨自监督学习的定义、其与其他学习类型的区别、如何利用自监督任务学到新知识,以及任务设计中的关键要点。

一、三大核心问题

1. 什么是自监督学习?

自监督学习是指机器学习中的标注来源于数据本身,而非人工标注的学习范式。自监督学习首先属于无监督学习范式,因其目标不需要依赖人工标注。与传统的无监督学习不同,自监督学习通过设计特定的任务(即代理任务)来引导模型学习数据中的深层语义信息。这种方式不仅可以提升模型的表示能力,还能在没有标注的情况下发现数据中的潜在模式。

2. 自监督学习的两大主要分支

自监督学习主要分为两大类:基于特定任务的自监督学习,以及基于表征学习的自监督学习。

  • 特定任务自监督学习:这个范畴下,研究者针对特定的视觉任务(如遮挡去除、深度估计、光流估计、图像关联点匹配等)设计自监督任务。通过完成这些任务,模型能够学习到与任务相关的深层视觉特征。

  • 表征学习自监督学习:这个方向关注模型如何从数据中自动学习一般化的视觉表征。相比于特定任务,表征学习更注重模型能够适应各种任务的稳健性。典型的代理任务包括图像分类、旋转预测、Jigsaw拼图、运动传播等。这些任务通过数据本身的结构(如图像的空间连贯性、运动的时空连贯性等)来引导模型学习。

3. 如何判断一个任务属于自监督学习

要判断一个任务是否属于自监督学习,除了无需人工标注这一标志外,还需要满足以下条件:任务需要引导模型学习新的知识。以图像补全任务为例,一个任务如果仅关注如何生成更逼真的图像而不注重通过这个过程学习图像的深层语义特征,则不属于自监督学习。但如果任务的目标是借助补全过程来学习图像的上下文信息,则可以视为自监督学习(如参考论文【1】)。

二、自监督任务的设计要点

成功设计一个自监督任务需要综合考虑多个因素。

1. 避免捷径任务设计

在设计任务时,必须避免给模型过简单的捷径。以Jigsaw拼图任务为例,如果让模型仅需要判断图像 patches 是否紧密排列,就可能无法学习到高阶语义特征。因此,需要在 Task设计中主动破坏图像的连贯性(如加入随机间隔、色差、畸变等)以迫使模型去发现图像的高层语义信息。

2. 进一步解决歧义性

大多数基于先验的自监督任务都会面临歧义性问题(如颜色化任务中多种颜色选择可能导致信息不确定性)。解决这一问题的方式包括:

  • 设计低熵先验:选择先验知识具有较低的不确定性(如物体的运动学属性)。

  • 多模态融合:结合图像、运动等多模态信息,增强任务的约束力。

3. 任务难度的平衡

神经网络对简单任务易于学习,对复杂任务容易失去兴趣。因此,任务难度需要合理设计。以Jigsaw拼图任务为例,不同难度的图像需要足够挑战模型,但又不会让模型难以完成任务(图11)。

三、自监督任务的未来展望

我们的世界是有序的,充满了先验知识。视觉信号是这些先验知识的外在反映。深度学习擅长处理高维视觉信号,因此自监督学习的存在和发展是自然而必然的。

从当前的发展趋势看,基于数据内部结构的instance discrimination(如NPID、MoCo、SimCLR等)处于技术领先地位。但未来基于先验的方法也有很大潜力。设计自监督任务时,应该既关注数据的内在结构,也要充分挖掘先验知识。避免陷入只追求某一方法的误区,自监督的想象空间远不止于目前的实现。

参考文献

【1】Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting."Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

【2】Walker, Jacob, Abhinav Gupta, and Martial Hebert. "Dense optical flow prediction from a static image."Proceedings of the IEEE International Conference on Computer Vision. 2015.

【3】Zhan, Xiaohang, et al. "Self-supervised learning via conditional motion propagation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

【4】Noroozi, Mehdi, and Paolo Favaro. "Unsupervised learning of visual representations by solving jigsaw puzzles."European Conference on Computer Vision. Springer, Cham, 2016.

【5】Misra, Ishan, C. Lawrence Zitnick, and Martial Hebert. "Shuffle and learn: unsupervised learning using temporal order verification."European Conference on Computer Vision. Springer, Cham, 2016.

【6】Wu, Zhirong, et al. "Unsupervised feature learning via non-parametric instance discrimination."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

【7】Grill, Jean-Bastien, et al. "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning."arXiv preprint arXiv:2006.07733(2020).

转载地址:http://xudsz.baihongyu.com/

你可能感兴趣的文章
Nginx配置好ssl,但$_SERVER[‘HTTPS‘]取不到值
查看>>
Nginx配置如何一键生成
查看>>
Nginx配置实例-负载均衡实例:平均访问多台服务器
查看>>
Nginx配置文件nginx.conf中文详解(总结)
查看>>
Nginx配置负载均衡到后台网关集群
查看>>
ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
查看>>
NHibernate学习[1]
查看>>
NHibernate异常:No persister for的解决办法
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
查看>>
NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
查看>>
NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
查看>>
NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
查看>>
Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
查看>>
NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
查看>>
NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
查看>>