常见的语义分割数据集 · 附下载地址
作者:graviti
发布于 11/30/2020

图像语义分割是计算机视觉领域的经典任务之一,目的是将图像分割成几组具有某种特定语义含义的像素区域,并识别出每个区域的类别,最终获得具有像素语义标注的图像。

下面为大家介绍九个常见的语义分割数据集,分别是:COCO、PASCAL VOC2012、ADE20k、BDD100K、OpenImages、CityScapes、Apolloscape、CamVid、SUN RGB-D。

1. COCO数据集

COCO(Common Objects in Context)是微软团队提供用来进行图像识别分割和图像语义的数据集。COCO数据集中的图像分为训练集、验证集和测试集。

有如下几个特点:

  • 目标分割
  • 上下文识别
  • 超像素分割
  • 330K图像(已标记> 200K)
  • 150万个对象实例
  • 80个对象类别
  • 91个物品类别
  • 每个图像5个字幕
  • 250,000包含关键点的人

COCO数据集支持目标检测、实例分割、全景分割、Stuff Segmentation、关键点检测、看图说话等任务类型。图片格式均为JPG格式,其中目标检测,实例分割任务对应的图像类别为80类;Stuff Segmentation,全景分割任务新增图像类别53类。

数据大小:83.39 GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/COCO

2. PASCAL VOC2012数据集

PASCAL视觉对象类数据集(PASCAL Visual Object Classes,简称VOC)是视觉对象类别识别和检测的评测指标,为视觉和机器学习社区提供了标准的图像数据集、标注数据集,以及标准的评估程序。这一挑战赛的主要目标是在现实场景中从大量的可视对象类中识别对象(即未预分割的对象)。

从2005年到2012年,VOC挑战赛每年组织一次。每年的内容都有所不同,从最开始的分类,到后面逐渐增加目标分类、目标检测、目标分割、人体布局、动作识别等内容,数据集的容量以及种类也在不断的增加和改善。

VOC 2012包含4个大类和20个小类:

  • 人类:人
  • 动物:鸟、猫、牛、狗、马、羊
  • 交通工具:飞机、自行车、船、公共汽车、汽车、摩托车、火车
  • 室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器

数据集大小:1.86GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/VOC2012_Detection

3. ADE20k数据集

ADE20K数据集由 MIT CSAIL 研究组于 2017 年发布,涵盖广泛的场景和对象类别,可用于场景感知、解析、分割、多物体识别和语义理解。该数据集构建了一个场景解析基准,包含150个对象和素材类。在此基础上对多个分割基线模型进行了评估。

数据集大小:3.77GB

  • 训练集:20,210 张图像
  • 验证集:2,000张图像
  • 测试集:未发布
  • 一致集:64张图像

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/ADE20K

4. BDD100K数据集

2018年5月,加州大学伯克利分校AI实验室(BAIR)发布了公开驾驶数据集BDD100K,该数据集是迄今为止用于计算机视觉研究最大、最多样的开放驾驶视频数据集。

BDD100K 数据集包含10万段高清视频,每个视频约40秒,清晰度为720p,帧率是30fps 。每个视频的第10秒对关键帧进行采样,得到10万张图片(1280*720 ),并进行标注,包含了不同天气、场景、时间下的图片,而且高清、模糊的图片都有,具有规模大,多样化的特点。

数据集大小:6.42GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/BDD100K

5. Open Images数据集

Open Images Dataset 包含约 900 万张标注图片,拥有 6000 个类别的标签,平均每张图像有 8 个标签,其分为包含 9,011,219 张图像的训练集、41,620 张图像的验证集和 125,436 张图像的测试集。该数据集比拥有 1000 个类别标签的 ImageNet Dataset 拥有更多实体,可被用于计算机视觉方向的训练。

数据集大小:671.41GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/Open_Images

6. CityScapes数据集

CityScapes是由奔驰自动驾驶实验室、马克思·普朗克研究所(Max Planck Institute)、达姆施塔特工业大学(Technische Universität Darmstadt)联合发布的图像数据集,专注于对城市街景的语义理解。

该数据集包含50个城市不同场景、不同背景、不同街景,以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注,共有5000张精细标注的图像和2万张粗略标注的图像。均采用PASCAL VOC标准得分评价算法性能。

数据集大小

  • 精细标注的图像:241MB
  • 粗略标注的图像:1.3GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/CityScapes

7. Apolloscape数据集

2018年,百度Apollo开放平台发布了ApolloScape数据集。

该数据集不仅开放了比Cityscapes等同类数据集大10倍以上的数据量,包括感知、仿真场景、路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据,且涵盖了更复杂的环境、天气和交通状况等,同时开放数据集采用了逐像素语义分割标注的方式,是目前环境最复杂、标注最精准、数据量最大的自动驾驶数据集。

获取地址https://www.graviti.cn/open-datasets/dataset-detail/ApolloScape

8. CamVid数据集

CamVid是首个带有对象类语义标签的视频集合,包含元数据。该数据集提供了Ground truth标签,将每个像素与32个语义类中的其中一个语义类进行关联。

数据集大小:7.3GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/CamVid

9. SUN RGB-D数据集

SUN RGB-D是普灵斯顿大学Vision & Robotics Group 公开的一个有关场景理解的数据集,由四个不同的传感器捕获,包含10,000张RGB-D图像,规模与PASCAL VOC类似。整个数据集的标注十分密集,包括146,617个2D多边形和58,657个具有精确对象方向的3D框,以及一个3D房间布局和场景类别。

这个数据集使我们能够训练需要大量数据的算法,从而完成场景理解任务。我们可以使用直接有意义的3D度量来评估它们,仿止因测试集小而出现过拟合的情况;也可以利用该数据集研究交叉传感器的偏差。

数据集大小

SUNRGBD V1 : 6.4G

SUNRGBDtoolbox : 544M

获取地址https://www.graviti.cn/open-datasets/dataset-detail/SUN_RGB-D

分享到:
立即开始构建AI