最基础的半监督学习-电子发烧友网

导读

最基础的半监督学习的概念，给大家一个感性的认识。

半监督学习(SSL)是一种机器学习技术，其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是要比单独使用有标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分，对这个机器学习的重要子领域进行了简要的介绍。

区分半监督学习，监督学习和无监督学习

整个数据集中可用于训练的有标记数据的范围区分了机器学习的这三个相关领域。

监督学习是机器学习中最流行的模式，在这种模式中，可以通过标签的形式获得完整的监督。整个数据集都有标记，即一个标签与训练数据集中的每个样本相关联。机器学习模型使用这个标签数据集训练，并期望对新的样本预测一个标签。监督学习主要包括两类任务：分类和回归。分类问题要求算法预测一个离散值，而回归任务是需要从输入变量(X)逼近一个映射函数(f)到连续输出变量(y)。

手写数字识别使用(MNIST)数据集。每个样本都有一个图像和对应的数字作为标签。任务是学习从图像中预测标签(即数字)。

另一个例子是情感分类，使用IMDB数据集。每条记录都包含一个评论和一个相应的标签(正面的或负面的)。这里的任务是预测给定评论的情绪。

房价预测是一个回归任务，其中标签(房价)是一个连续变量。

在无监督学习中，没有标记数据可用。训练数据集包含样本，但没有特定的期望结果或标签。机器学习模型试图通过提取有用的特征并对其进行分析来自动地在数据中找到结构。像聚类、异常检测、关联等任务属于无监督学习。

聚类是将数据集划分为多个簇，使同一簇中的数据点与同一簇中的其他数据点更相似，与其他簇中的数据点不相似。例如，下图(左)中的数据点可以分成3个簇，如图(右)所示。注意，簇可以是任何形状。

半监督式学习(SSL)，正如其名称所示，介于两个极端之间(监督式是指整个数据集被标记，而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常，SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

我们的目标是学习一个预测器来预测未来的测试数据，这个预测器比单独从有标记的训练数据中学习的预测器更好。

监督学习，半监督学习，无监督学习在标记数据上的差别可视化

为什么要关注半监督学习

在许多实际应用中，收集大的有标签数据集太昂贵或者不可行，但是有大量的无标签数据可用。对于这种情况，半监督学习是一个完美的方案。SSL技术可以利用带标签的数据，也可以从未带标签的数据派生结构，从而更好地解决总体任务。

典型的监督学习算法在标记数据集较小的情况下，容易出现过拟合问题。SSL通过在训练过程中理解未标记数据的结构来缓解这个问题。

此外，这种学习技术减轻了构建大量标记数据集来学习任务的负担。SSL方法更接近我们人类的学习方式。

让我们举个例子来直观地看看半监督学习的效果。在下面的图中，当只对标记数据(大的黑点和白点)进行训练(即对标记数据进行监督学习)时，决策边界(虚线)并不遵循数据“流形”的轮廓，这可以由额外的未标记数据(小灰点)来表示。

因此，SSL的目标是利用未标记数据来生成决策边界，从而更好地反映数据的底层结构。

由不同的半监督学习方法生成的决策边界

半监督学习的任务举例

CIFAR-10— 它是由10个类的32×32像素的RGB图像组成的数据集，任务是图像分类。通常使用Tiny Images数据集中的随机图像来形成未标记数据集。

SVHN— 街景门牌号数据集由真实门牌号的32×32像素的RGB图像组成，任务是分类最中间的数字。它附带一个“SVHN-extra”数据集，该数据集由531,131个额外的数字图像组成，可以用作未标记数据。

Text-Classification Tasks— 亚马逊评论数据库，Yelp评论数据集。

总结

半监督学习是一种有趣的方法，用于解决机器学习中缺乏标记数据的问题。SSL算法还利用未标记数据来提高监督学习算法的性能。SSL算法通常提供了一种从无标签示例中了解数据结构的方法，减轻了对标签的需求。

本系列的第2部分会介绍了一些具体的SSL技术，未完待续。

责任编辑：xj

原文标题：半监督学习入门基础（一）

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SSL

SSL

+关注

关注
0

文章
125

浏览量
25739
半监督

半监督

+关注

关注
0

文章
5

浏览量
6325
机器学习

机器学习

+关注

关注
66

文章
8414

浏览量
132602
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121136

原文标题：半监督学习入门基础（一）

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在预训练阶段

发表于 11-15 11:41 •246次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用自监督学习策略，在大量无标签文本数据上学习

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化

发表于 07-25 14:33

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律，从而提取有用的特征表示。这种训练方式对于大规模未

发表于 07-09 18:06 •791次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法，包括自编码器、生成对抗网络、聚类算法等，并分析它们的原理、应用场景以及优

发表于 07-09 10:50 •705次阅读

前馈神经网络的基本结构和常见激活函数

和激活函数的非线性变换，能够学习和模拟复杂的函数映射，从而解决各种监督学习任务。本文将详细阐述前馈神经网络的基本结构，包括其组成层、权重和偏置、激活函数等，并介绍几种常见的激活函数及其特性。

发表于 07-09 10:31 •793次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

STDP 无监督学习算法，可运用于图像的无监督分类。从平台设计角度： (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类脑计算平台，搭载 PYNN，NEST 等通用 SNN

发表于 06-25 18:35

CVPR'24 Highlight！跟踪3D空间中的一切！

为了使用三维运动先验正则化估计的三维轨迹，模型另外预测了每条轨迹的刚性嵌入，这使能够软地分组表现出相同刚性体运动的像素，并为每个刚性集群强制执行ARAP正则化。作者证明了刚性嵌入可以通过自监督学习，并产生不同刚性部分的合理分割。

发表于 04-13 12:12 •1240次阅读

机器学习基础知识全攻略

有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。Y = f (X)，训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值。

发表于 02-25 13:53 •241次阅读

OpenAI推出Sora：AI领域的革命性突破

大模型的核心技术是自然语言处理（NLP）和深度学习。具体而言，它基于Transformer架构，使用了大规模无监督学习方法，例如自回归语言建模和掩码语言建模，来训练一个庞大的神经网络模型。

发表于 02-21 16:36 •1016次阅读

半控和全控威廉希尔官方网站的特点二极管是半控型器件吗

半控和全控威廉希尔官方网站的特点二极管是半控型器件吗半控和全控威廉希尔官方网站的特点: 半控威廉希尔官方网站是指威廉希尔官方网站中的电子元件（如晶闸管或场效应管）仅仅对电流的一部分进行控制，而不对电流的全部进行控制。它具有以下

发表于 02-19 15:42 •1912次阅读

Meta发布新型无监督视频预测模型“V-JEPA”

Meta，这家社交媒体和科技巨头，近日宣布推出一种新型的无监督视频预测模型，名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注，因为它通过抽象性预测生成视频中缺失或模糊的部分来进行学习，提供了一种全新的视频处理方法。

发表于 02-19 11:19 •1010次阅读

描绘未知：数据缺乏场景的缺陷检测方案

Neuro-T 视觉平台克服了数据缺乏状况的困难，通过零代码设置 GAN模型和无监督学习模型，轻松实现缺陷图像的标注、绘制和导出。工业应用中存在较多的缺陷检测需求。针对缺陷检测需求，常见的解决方案有两种：基于目标正常图像数据的模板匹配；训练深度学习模

发表于 01-25 10:46 •565次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中学习到更有用的表示形式，从而提高模型的性能。

发表于 01-24 09:58 •2009次阅读

谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

另一个极端是，监督学习方法（即SupCE）会将所有这些图像视为单一类（如「金毛猎犬」）。这就忽略了这些图像在语义上的细微差别，例如在一对图像中狗在骑自行车，而在另一对图像中狗坐在寿司屋内。

发表于 01-15 15:40 •540次阅读