【Machine Learning Q and AI 读书笔记】- 02 自监督学习
Machine Learning Q and AI
中文译名 大模型技术30讲,主要总结了大模型相关的技术要点,结合学术和工程化,对LLM从业者来说,是一份非常好的学习实践技术地图.
本文是Machine Learning Q and AI
读书笔记的第2篇,对应原书第二章 《自监督学习》.
TL;DR
本文着重围绕3个问题:
- 什么是自监督学习;
- 自监督学习在哪些情况下有效;
- 自监督学习的实现方法有哪些.
什么是自监督学习
Self-supervised learning is a pretraining procedure that lets neural networks leverage large unlabeled datasets in a supervised fashion.
从原文可以看到,自监督学习是一个预训练过程, 能让神经网络在监督学习的方式下,学习大规模的无标签数据集.
因为自监督学习和迁移学习有相关性,因此先介绍一下迁移学习(Transfer Learning)的概念。
迁移学习
Transfer learning (TL) is a technique in machine learning (ML) in which knowledge learned from a task is re-used in order to boost performance on a related task. For example, for image classification, knowledge gained while learning to recognize cars could be applied when trying to recognize trucks. This topic is related to the psychological literature on transfer of learning, although practical ties between the two fields are limited. Reusing/transferring information from previously learned tasks to new tasks has the potential to significantly improve learning efficiency
from wiki
迁移学习(Transfer Learning,TL)是机器学习(Machine Learning,ML)中的一种技术,它将从一个任务中获得的知识重新用于提升在相关任务上的性能。例如,在图像分类中,学习识别汽车时获得的知识可以应用于识别卡车。这一主题与心理学中关于学习迁移的文献相关,尽管这两个领域之间的实际联系是有限的。从先前学习的任务中重用/转移信息,有可能显著提高学习效率。
自监督学习
自监督学习是迁移学习的一种替代方案,区别在于,迁移学习是在有标签数据集上,而自监督学习在无标签数据集上.
自监督学习的一个例子是NLP任务中预测缺失词,这和BERT的完形填空式训练任务基本一致. 方法是把句子中的某个词语替换成[MASK]
标签让模型去预测.
什么场景下有效
文中提到,迁移学习和自监督学习的主要区别在于如何获取标签. 在迁移学习中,假设所有的数据都有标签并且这些标签大多是由人工标注. 在自监督学习中,标签是从数据中直接获取的。例如LLM的预训练,就是直接输入语料(严格来说,也是把语料拆分为输入和标签,只不过标签本身来自于语料).
那么,这里可以回答开头的第二个问题,什么场景下有效,就是无标签数据集下.
实现方式
这里谈到实现方式,是在说训练的下游任务.
文中提到两种类型的任务:
- 自预测
- 对比自监督
自预测
In self-prediction, we typically change or hide parts of the input and train the model to reconstruct the original inputs.
在自预测中,我们通常会更改或隐藏输入的一部分,并训练模型重建原始输入。
文中的例子:
这里通过掩盖输入图片中的一部分让模型去预测,达到自预测的训练目标.
对比自监督
对比自监督任务中,则是训练神经网络学习一个嵌入空间,其中,相似的输入彼此接近,而不相似的输入则距离远。 也就是网络能产生的嵌入向量能够满足相似样本间向量距离近,不相似的距离远.
总结
本文介绍自监督学习的概念,适用场景,以及实现自监督学习的两种任务.