各领域常见AI公开数据集汇总 · 附下载地址
作者:graviti
发布于 11/30/2020

随着越来越多的数据集的公开,AI开发者们有了更多的学习实践资源。本文为大家整理了一系列自动驾驶、目标检测、人脸识别、姿态估计、文本检测等领域的高质量公开数据集,让每个AI开发者都可以利用这些数据集来提升自己的能力。

一、自动驾驶领域数据集

1. KITTI数据集

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。

20170414161125191

KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为‘Road’, ‘City’, ‘Residential’, ‘Campus’ 和‘Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。
数据集大小:312MB~440GB不等
Graviti收录了多个KITTI相关数据集,可以在官网搜索「KITTI」查看
获取地址:https://www.graviti.cn/open-datasets/

2.CityScapes数据集

CityScapes是由奔驰自动驾驶实验室、马克思·普朗克研究所、达姆施塔特工业大学联合发布的公开数据集,专注于对城市街景的语义理解。该数据集包含50个不同的城市,在不同的季节和天气条件下的街景中记录的各种立体视频序列,Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像。

数据集大小:74.15GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/CityScapes

3.BDD100K数据集

2018年5月伯克利大学AI实验室(BAIR)发布了公开驾驶数据集BDD100K,同时设计了一个图片标注系统。BDD100K 数据集包含10万段高清视频,每个视频约40秒\720p\30 fps 。每个视频的第10秒对关键帧进行采样,得到10万张图片(图片尺寸:1280*720 ),并进行标注。10万张图片中,包含了不同天气、场景、时间的图片,而且高清、模糊的图片都有,具有规模大,多样化的特点。

数据集大小:6.42GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/BDD100K

4.nuScenes数据集

nuScenes数据集是由Motional(以前为nuTonomy)的团队开发的用于自动驾驶的公共大型数据集。Motional致力于实现安全,可靠和可达的无人驾驶环境。通过向公众发布部分数据,Motional旨在推进计算机视觉和自动驾驶的研究。

nuScenes数据集在波士顿和新加坡这两个城市收集了1000个驾驶场景,这两个城市交通繁忙,驾驶状况极具挑战性。nuScenes手动选择20秒长的场景,以显示各种驾驶操作,交通状况和意外行为。nuScenes收集了不同大洲的数据,能让我们进一步研究计算机视觉算法在不同位置,天气状况,车辆类型,植被,道路标记以及左右手交通之间的通用性。nuScenes完整的数据集包括约40万个关键帧中的140万个摄像机图像,39万个LIDAR扫描数据,1.4 M个RADAR扫描数据和1.4万个对象边界框。其扩展包nuScenes-lidarseg的40,000个点云和1000个场景(用于训练和验证的850个场景以及用于测试的150个场景)中包含了14亿个标注点。

数据集大小:547.98GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/nuScenes

二、目标检测数据集

1.PASCAL VOC数据集

PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛, 全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。

很多优秀的计算机视觉模型比如分类,定位,检测,分割,动作识别等模型都是基于PASCAL VOC挑战赛及其数据集上推出的,尤其是一些目标检测模型(比如大名鼎鼎的R CNN系列,以及后面的YOLO,SSD等)。PASCAL VOC从2005年开始举办挑战赛,每年的内容都有所不同,从最开始的分类,到后面逐渐增加检测,分割,人体布局,动作识别(Object Classification 、Object Detection、Object Segmentation、Human Layout、Action Classification)等内容,数据集的容量以及种类也在不断的增加和改善。该项挑战赛催生出了一大批优秀的计算机视觉模型(尤其是以深度学习技术为主的)。这项挑战赛已于2012年停止举办了,但是研究者仍然可以在其服务器上提交预测结果以评估模型的性能。PASCAL对于目标检测或分割类型来说属于先驱者的地位。对于现在的研究者来说比较重要的两个年份的数据集是 PASCAL VOC 2007 与 PASCAL VOC 2012。PASCAL VOC 2012数据集是在2007年的基础上增加而来的,均包含4个大类和20个小类。

Pascal VOC2007和Pascal VOC2012的数据集都可以在Graviti官网上查找。

Pascal VOC2007:

数据大小:892MB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/PascalVOC2007

Pascal VOC2012

数据大小:1.86GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/VOC2012_Detection

2.COCO数据集

COCO的全称是Common Objects in Context,是微软团队提供的用来进行图像识别分割和图像语义的数据集。

MS COCO数据集中的图像分为训练、验证和测试集。其中共有三个版本:

COCO2014:一共为27G,训练集14G,验证集6.6G,测试集6.6G,对应的图片数量分别为82783,40504,40775;

COCO2015:一共为13G,仅有测试集13G,对应的图片数量分别为81434;

COCO2017:一共为29G,训练集19G,验证集818M,测试集6.6G,对应的图片数量分别为118287,5000,40670。

COCO数据集支持目标检测、实例分割、全景分割、Stuff Segmentation、关键点检测、看图说话等任务类型。图片格式均为JPG格式,其中目标检测,实例分割任务对应的图像类别为80类;Stuff Segmentation,全景分割任务新增图像类别53类。

数据大小:83.39GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/COCO

3.ImageNet数据集

Imagenet数据集对深度学习的浪潮起了巨大的推动作用。深度学习领域大牛Hinton在2012年发表的论文《ImageNetClassIFication with Deep Convolutional Neural Networks》在计算机视觉领域带来了一场“革命”,此论文的工作正是基于Imagenet数据集。

Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。Imagenet数据集每年都会举办一次竞赛,即“ImageNet国际计算机视觉挑战赛(ILSVRC)”,以正确地分类和检测图像中的场景和对象。Imagenet数据集是一个非常优秀的数据集,但是标注难免会有错误,几乎每年都会对错误的数据进行修正或是删除,建议下载最新数据集并关注数据集更新。

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/ImageNet

4.OpenImage数据集

Open Image是一个有Google发布的包含约900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。

数据大小:671.41GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/Open_Images

三、人脸识别类数据集

1.YouTube Face DB数据集

YouTube Face是一个人脸视频数据库,旨在研究视频中,非受限情况下的人脸识别的问题。数据集包含1,595个不同人的3,425个视频,都是从YouTube下载的。每个主题平均包含2.15个视频。视频剪辑持续时间最短为48帧,最长为6,070帧,平均长度为181.3帧。

数据集大小:671.41GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/YouTube_Faces_DB

2.CelebA数据集

CelebFaces属性数据集(CelebA)是一个大规模的面部属性数据集,其中包含超过20万名人图像,每个图像都有40个属性注释。该数据集中的图像涵盖了较大的姿势变化和背景杂波。

CelebA具有多种多样,数量众多且注释丰富的特点,包括:

  • 10,177个不同的ID
  • 202,599张人脸图像
  • 该数据集可用作以下计算机视觉任务的训练和测试集:面部属性识别,面部检测,五官(或面部部分)定位以及面部编辑和合成。

数据集大小:9.55 GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/CelebA

3.IMDB-WIKI数据集

IMDB-WIKI人脸数据库是有IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。

数据集大小:276.23GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/IMDB-WIKI

4.LFW数据集

LFW (Labeled Faces in the Wild) 人脸数据库是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库,主要用来研究非受限情况下的人脸识别问题。是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心的人脸作为目标,其他区域的视为背景干扰。

LFW数据集主要是从互联网上搜集图像,共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片,其中有1680 人包含两个以上的人脸图像。每张图片的尺寸为250X250,绝大部分为彩色图像,也存在少许黑白人脸图片。

数据集大小:1.29GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/LFW

四、姿态估计类数据集

1.LSP数据集

Leeds Sports Pose 是由利兹大学计算机学院于 2010 年发布的一个体育姿势数据集。被分为竞技、羽毛球、棒球、体操、跑酷、足球、排球和网球几类,共包含约 2000 个姿势注释,图像均来自于 Flickr 。通过对图像进行缩放,聚焦的人物长度约 150 像素,并且每个图像都带有14个关节位置的注释,其左侧和右侧关节始终“以本人的视角”进行标记。

数据大小:33.78MB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/Leeds_Sports_Pose

2.FLIC数据集

FLIC(Frames Labeled In Cinema)数据集由宾夕法尼亚大学-工程与应用科学学院 GRASP 实验室于 2013 年发布。该数据集是从好莱坞流行电影中自动收集的图像数据集,包含5003张图像。这些图像截取了30部电影的整十倍的帧数,通过最先进的人物检测器获得。每个图像由五个人标注10个上半身关节。此外,图像中拥有 5 个中值标记以保证异常值注释具有鲁棒性。最后,如果该人被遮挡或严重不正面,将被手动删除。

数据集大小:1.38GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/FLIC

3.MPII Human Pose数据集

MPII Human Pose人体姿势数据集是人体姿势预估的一个 benchmark。数据集中包含约25000张标注图像,标注人数超过 4万人,涵盖了410中人类活动。这些图像是从 YouTube video 中抽取出来的。此外,在测试集中还收录了身体部位遮挡、3D 躯干、头部方向的标注。

数据集大小:11.26GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/MPII_Human_Pose

五、文本检测类数据集

1.MNIST数据集

MNIST是深度学习领域的“Hello World!”。MNIST是一个手写数字数据库,有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。

数据集大小:12MB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/MNIST

2.SVHN数据集

SVHN是从Google街景图像中的门牌号获得的一个来自现实世界的图像数据集,用于开发机器学习和对象识别算法,同时对数据预处理和格式化的要求最低。它的风格与MNIST相似,但有更多数量级的标记数据(超过600,000位数字图像),并且希望解决一个更加困难,难以解决的现实问题(识别自然场景图像中的数字)。

数据集中包含10个类别,数字1~9对应标签1~9,而“0”的标签则为10。训练集中共有73257张图像,测试集中有26032张图像。

数据集格式:带有字符级边界框的原始图像。

数据集大小:3.92GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/SVHN

3.CCPD数据集

CCPD(Chinese City Parking Dataset)数据集是一个用于车牌识别的大型国内停车场车牌数据集,是由中科大团队建立的。该数据集在合肥市的停车场采集得来,采集时间早上7:30到晚上10:00。停车场采集人员手持Android POS机对停车场的车辆拍照并手工标注车牌位置。拍摄的车牌照片涉及多种复杂环境,包括模糊、倾斜、阴雨天、雪天等等。CCPD数据集一共包含将近30万张图片,每种图片大小720x1160x3。一共包含8项,具体如下:

类型

图片数

说明

ccpd_base

199998

正常车牌

ccpd_challenge

10006

比较有挑战性的车牌

ccpd_db

20001

光线较暗或较亮

ccpd_fn

19999

距离摄像头较远或较近

ccpd_np

3036

没上牌的新车

ccpd_rotate

9998

水平倾斜20-50°,垂直倾斜-10-10°

ccpd_tilt

10000

水平倾斜15-45°,垂直倾斜15-45°

ccpd_weather

9999

雨天、雪天或者雾天的车牌

总共:283037张车牌图像

数据集大小:23.48GB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/CCPD

六、NLP数据集

1.common voice数据集

Common Voice 是 Mozilla 发起的一项倡议,旨在推进语音识别技术,更广泛地为大众服务。Common Voice 也是一套庞大的数据库,收录了全球各地贡献的语音数据,让任何人都可以更快更轻松地训练支持所有语言的语音识别程序。除了应用最广泛的语言,common voice还收集了使用人数较少的语种语音样本。一套丰富而又公开的语音数据集能够帮助开发者、创业者以及各个社区缩小语言规模的鸿沟。

该数据集当前有 5,671 小时,54 种语言的语音数据。数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 7,226 小时的录音中,有许多条数据同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。

数据集大小:50.06GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/Common_Voice_EN

2.LibirSpeech数据集

公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,这些数据来自LibriVox项目的有声读物。数据都经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。

数据集大小:140.02GB

获取地址:https://www.graviti.cn/open-datasets/dataset-detail/LibriSpeech_ASR

3.20 NewsGroup数据集

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似,还有一些却完全不相关。

comp.graphics

comp.os.ms-windows.misc

comp.sys.ibm.pc.hardware

comp.sys.mac.hardware

comp.windows.x

rec.autos

rec.motorcycles

rec.sport.baseball

rec.sport.hockey

sci.crypt

sci.electronics

sci.med

sci.space

misc.forsale

talk.politics.misc

talk.politics.guns

talk.politics.mideast

talk.religion.misc

alt.atheism

soc.religion.christian

20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含重复文档和新闻组名(新闻组,路径,隶属于,日期)。第三个版本18828不包含重复文档,只有来源和主题。

● 20news-19997.tar.gz –原始20 Newsgroups数据集

● 20news-bydate.tar.gz –按时间分类; 不包含重复文档和新闻组名(18846 个文档)

● 20news-18828.tar.gz–  不包含重复文档,只有来源和主题 (18828 个文档)

数据集大小:44.31MB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/20_Newsgroups

七、医学类数据集

1.COVID-CT数据集

该数据集的图像是从medRxiv,bioRxiv,NEJM,JAMA,Lancet等与COVID19相关的论文中收集的。COVID-CT-Dataset包含来自216位COVID-19患者的349张CT图像和439张非患者的CT。图像中,还收集了从论文中提取的元信息,如患者年龄、性别、位置、病史、扫描时间、COVID-19的严重程度和放射学报告。

数据集大小:370.82MB

获取地址https://www.graviti.cn/open-datasets/dataset-detail/COVID-CT

分享到:
立即开始构建AI
出错了
刚刚
timeout_error