PyTorch教程14.9之语义分割和数据集-电子发烧友网

在第 14.3 节-第 14.8 节讨论对象检测任务时，矩形边界框用于标记和预测图像中的对象。本节将讨论语义分割问题，重点关注如何将图像划分为属于不同语义类的区域。与目标检测不同，语义分割在像素级别识别和理解图像中的内容：它对语义区域的标记和预测是在像素级别。图 14.9.1显示了语义分割中图像的狗、猫和背景的标签。与目标检测相比，语义分割中标记的像素级边界明显更细粒度。

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9O9WAJnnkAAdSBrW48yA985.svg

图 14.9.1语义分割中图像的狗、猫和背景的标签。

14.9.1。图像分割和实例分割

计算机视觉领域还有两个与语义分割类似的重要任务，即图像分割和实例分割。我们将如下简要地将它们与语义分割区分开来。

图像分割将图像分成几个组成区域。这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要图像像素的标签信息，也不能保证分割后的区域在预测时具有我们希望得到的语义。以图 14.9.1中的图像作为输入，图像分割可以将狗分成两个区域：一个覆盖以黑色为主的嘴巴和眼睛，另一个覆盖以黄色为主的身体其余部分。
实例分割也称为同时检测和分割。它研究如何识别图像中每个对象实例的像素级区域。与语义分割不同，实例分割不仅需要区分语义，还需要区分不同的对象实例。例如，如果图像中有两只狗，实例分割需要区分一个像素属于这两只狗中的哪一只。

14.9.2。Pascal VOC2012 语义分割数据集

最重要的语义分割数据集之一是Pascal VOC2012。下面，我们将看看这个数据集。

							%matplotlib inline
import os
import torch
import torchvision
from d2l import torch as d2l

							 

							%matplotlib inline
import os
from mxnet import gluon, image, np, npx
from d2l import mxnet as d2l

npx.set_np()

							 

数据集的 tar 文件大约 2 GB，因此下载文件可能需要一段时间。提取的数据集位于 ../data/VOCdevkit/VOC2012.

							#@save
d2l.DATA_HUB['voc2012'] = (d2l.DATA_URL + 'VOCtrainval_11-May-2012.tar',
              '4e443f8a2eca6b1dac8a6c57641b67dd40621a49')

voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')

							Downloading ../data/VOCtrainval_11-May-2012.tar from http://d2l-data.s3-accelerate.amazonaws.com/VOCtrainval_11-May-2012.tar...

						

							#@save
d2l.DATA_HUB['voc2012'] = (d2l.DATA_URL + 'VOCtrainval_11-May-2012.tar',
              '4e443f8a2eca6b1dac8a6c57641b67dd40621a49')

voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')

进入路径后../data/VOCdevkit/VOC2012，我们可以看到数据集的不同组成部分。该ImageSets/Segmentation路径包含指定训练和测试样本的文本文件，而 JPEGImages和SegmentationClass路径分别存储每个示例的输入图像和标签。这里的label也是image格式的，和它的labeled input image大小一样。此外，任何标签图像中具有相同颜色的像素属于同一语义类。下面定义了read_voc_images将所有输入图像和标签读入内存的函数。

							#@save
def read_voc_images(voc_dir, is_train=True):
  """Read all VOC feature and label images."""
  txt_fname = os.path.join(voc_dir, 'ImageSets', 'Segmentation',
               'train.txt' if is_train else 'val.txt')
  mode = torchvision.io.image.ImageReadMode.RGB
  with open(txt_fname, 'r') as f:
    images = f.read().split()
  features, labels = [], []
  for i, fname in enumerate(images):
    features.append(torchvision.io.read_image(os.path.join(
      voc_dir, 'JPEGImages', f'{fname}.jpg')))
    labels.append(torchvision.io.read_image(os.path.join(
      voc_dir, 'SegmentationClass' ,f'{fname}.png'), mode))
  return features, labels

train_features, train_labels = read_voc_images(voc_dir, True)

							 

							#@save
def read_voc_images(voc_dir, is_train=True):
  """Read all VOC feature and label images."""
  txt_fname = os.path.join(voc_dir, 'ImageSets', 'Segmentation',
               'train.txt' if is_train else 'val.txt')
  with open(txt_fname, 'r') as f:
    images = f.read().split()
  features, labels = [], []
  for i, fname in enumerate(images):
    features.append(image.imread(os.path.join(
      voc_dir, 'JPEGImages', f'{fname}.jpg')))
    labels.append(image.imread(os.path.join(
      voc_dir, 'SegmentationClass', f'{fname}.png')))
  return features, labels

train_features, train_labels = read_voc_images(voc_dir, True)

							 

我们绘制前五个输入图像及其标签。在标签图像中，白色和黑色分别代表边框和背景，而其他颜色对应不同的类别。

							n = 5
imgs = train_features[:n] + train_labels[:n]
imgs = [img.permute(1,2,0) for img in imgs]
d2l.show_images(imgs, 2, n);

							 

https://file.elecfans.com/web2/M00/A9/00/poYBAGR4YpiAUiS-AAFQfESlL94544.png

							n = 5
imgs = train_features[:n] + train_labels[:n]
d2l.show_images(imgs, 2, n);

							 

接下来，我们枚举该数据集中所有标签的 RGB 颜色值和类名。

							#@save
VOC_COLORMAP = [[0, 0, 0], [128, 0, 0], [0, 128, 0], [128, 128, 0],
        [0, 0, 128], [128, 0, 128], [0, 128, 128], [128, 128, 128],
        [64, 0, 0], [192, 0, 0], [64, 128, 0], [192, 128, 0],
        [64, 0, 128], [192, 0, 128], [64, 128, 128], [192, 128, 128],
        [0, 64, 0], [128, 64, 0], [0, 192, 0], [128, 192, 0],
        [0, 64, 128]]

#@save
VOC_CLASSES = ['background', 'aeroplane', 'bicycle', 'bird', 'boat',
        'bottle', 'bus', 'car', 'cat', 'chair', 'cow',
        'diningtable', 'dog', 'horse', 'motorbike', 'person',
        'potted plant', 'sheep', 'sofa', 'train', 'tv/monitor']

							 

							#@save
VOC_COLORMAP = [[0, 0, 0], [128, 0, 0], [0, 128, 0], [128, 128, 0],
        [0, 0, 128], [128, 0, 128], [0, 128, 128], [128, 128, 128],
        [64, 0, 0], [192, 0, 0], [64, 128, 0], [192, 128, 0],
        [64, 0, 128], [192, 0, 128], [64, 128, 128], [192, 128, 128],
        [0, 64, 0], [128, 64, 0], [0, 192, 0], [128, 192, 0],
        [0, 64, 128]]

#@save
VOC_CLASSES = ['background', 'aeroplane', 'bicycle', 'bird', 'boat',
        'bottle', 'bus', 'car', 'cat', 'chair', 'cow',
        'diningtable', 'dog', 'horse', 'motorbike', 'person',
        'potted plant', 'sheep', 'sofa', 'train', 'tv/monitor']

							 

使用上面定义的两个常量，我们可以方便地找到标签中每个像素的类索引。我们定义了voc_colormap2label 构建从上述 RGB 颜色值到类索引的映射的函数，以及voc_label_indices将任何 RGB 值映射到此 Pascal VOC2012 数据集中它们的类索引的函数。

							#@save
def voc_colormap2label():
  """Build the mapping from RGB to class indices for VOC labels."""
  colormap2label = torch.zeros(256 ** 3, dtype=torch.long)
  for i
						

PyTorch教程14.9之语义分割和数据集

14.9.1。图像分割和实例分割

14.9.2。Pascal VOC2012 语义分割数据集

PyTorch教程3.3之综合回归数据

PyTorch教程3.6之概括

PyTorch教程4.2之图像分类数据集

PyTorch教程10.5之机器翻译和数据集

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程14.2之微调

PyTorch教程6.7之显卡

PyTorch教程14.6之对象检测数据集

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.1之情绪分析和数据集

PyTorch教程9.2之将原始文本转换为序列数据

基于语义分割的输电线路中防震锤识别

全局双边网络语义分割算法综述

基于遥感数据的海岛边界快速分割模型

基于图像语义分割的毛笔笔触实时生成技术

藏文句义分割方法综述

基于变分水平集模型的多相图像分割

一种高精度的肝脏图像自动分割算法

基于SEGNET模型的图像语义分割方法

基于密集层和注意力机制的快速场景语义分割方法

一种具有语义区域风格约束的图像生成框架

基于深度神经网络的图像语义分割方法

基于深度学习的三维点云语义分割研究分析

结合双目图像的深度信息跨层次特征的语义分割模型

分析总结基于深度神经网络的图像语义分割方法

DeepLab进行语义分割的研究分析

Python网页爬虫，文本处理，科学计算，机器学习和数据挖掘工具集

变分水平集的图像分割

图像语义分割的实用性是什么

图像分割和语义分割的区别与联系

图像分割与语义分割中的CNN模型综述

PyTorch如何训练自己的数据集

深度学习图像语义分割指标介绍

使用PyTorch加速图像分割

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-14.9. 语义分割和数据集

使用LabVIEW实现 DeepLabv3+ 语义分割含源码

语义分割标注：从认知到实践

语义分割数据集：从理论到实践

图像语义分割的概念与原理以及常用的方法

使用LabVIEW实现基于pytorch的DeepLabv3图像语义分割

轻松学Pytorch之Deeplabv3推理

深度解析计算机视觉的​语义分割网络技术

普通视觉Transformer（ViT）用于语义分割的能力

基于一致性的半监督语义分割方法

利用 Python 和 PyTorch 处理面向对象的数据集（2）) ：创建数据集对象

每日一课 | 智慧灯杆视觉技术之语义分割

利用Python和PyTorch处理面向对象的数据集

语义分割方法发展过程

语义分割速览—全卷积网络FCN

大华股份AI刷新了Cityscapes数据集中语义分割任务的全球最好成绩

语义分割算法系统介绍

Deepen AI开发融合传感器数据4D语义分割

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

基于D-AlexNet和多特征映射的交通场景语义分割方法

聚焦语义分割任务，如何用卷积神经网络处理语义图像分割？

MIT提出语义分割技术，电影特效自动化生成

广泛应用的城市语义分割的数据集整理

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

TPS54202H降压转换器评估模块用户指南

HY12P65/HY12P66数字万用表芯片规格书

深度解析计算机视觉的语义分割网络技术