本文汇总并介绍了八个具有代表性的优质人脸数据集,并附上相应的高速下载地址。
针对海外数据获取难、下载慢的问题,公开数据集下载平台Graviti Open Datasets给出了一站式解决方案——将全球资源Host至国内镜像,无需VPN访问即可享受高速下载。
发布方:香港中文大学Multimedia Laboratory
发布时间:2015年
数据集大小:3.42GB
WIDER FACE数据集是一个面部检测基准数据集,图片是从公开数据集WIDER数据集中选择的。该数据集一共包含32,203张图像和393,703个面部标记,在面部大小、姿势和遮挡物都有很大的不同。如示例图像中所示。WIDER FACE数据集基于61个事件类别进行分类。对于每个事件类别,随机选择40%/ 10%/ 50%数据作为训练,验证和测试集。Graviti已经收录了该数据集,并可以对图片进行预览,查看标签分布。
下载WIDER FACE数据集:https://gas.graviti.cn/dataset/data-decorators/WIDER_FACE
发布方:牛津大学视觉几何组
发布时间:2015年
数据集大小:VGGFace2「37.26GB」、VGGFace1
数据集包含2,622个人的200万张图片。每个身份都有一个关联的文本文件,其中包含图像的URL和相应的面部检测。VGG后来又发布了VGG-Face 2 Dataset,这是一个大规模人脸识别数据集,其包含共计 9131 个人的面部数据。VGG数据集的图像均来自 Google 的图片搜索,在姿势、年龄、种族和职业方面有很大差异。
下载VGG数据集:
VGG Face:https://gas.graviti.cn/dataset/graviti-open-dataset/VGGFace
VGG Face2:https://gas.graviti.cn/dataset/shannont/VGGFace2
发布方:University of Massachusetts
发布时间:2007年
LFW (Labeled Faces in the Wild) 人脸数据库是是目前人脸识别的常用测试集。该数据集是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库,主要用来研究非受限情况下的人脸识别问题。其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集主要是从互联网上搜集图像,共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片,其中有1680 人包含两个以上的人脸图像。每张图片的尺寸为250X250,绝大部分为彩色图像,也存在少许黑白人脸图片。
下载LFW数据集:https://gas.graviti.cn/dataset/graviti-open-dataset/LFW
发布方:陈柏村,毕业于国立台湾大学。目前攻读马里兰大学计算科学系博士学位。
发布时间:2014年
数据集大小:7.83GB
CACD数据集的全称是Cross Age Celebrity Dataset,是为了研究跨年龄的人脸识别和检索。该数据集包含16万至16岁至62岁之间的超过100,000张2,000名名人的图像。据我们所知,它是迄今为止最大的可公开获得的跨年龄面部数据集。实验结果表明,所提出的方法可以在我们的数据集以及其他用于跨年龄的人脸识别的数据集MORPH数据集上均达到最先进的性能。
该据集包含超过16万张16岁至62岁之间的2,000位名人的图像。所有图像均是从搜索引擎上搜索下载的。下载的数据集包含两个MATLAB结构:
celebrityData-包含2,000位名人的信息
celebrityImageData-包含面部图像的信息
下载CACD数据集:https://www.graviti.cn/open-datasets/CACD
发布方:Inria,法国国家研究所,致力于研究计算机科学和应用数学。
发布时间:2004年
数据集大小:27.19MB
head pose image数据集是包含15个人的2790张单个面部图像的基准数据集,其摇摄和倾斜角度从-90度到+90度不等。针对每个人,都有2个系列的图像,每个系列包含93幅图像(93种不同姿势)可用。每人拥有2个系列的目的是能够在同一个人的面部上训练和测试算法。数据库中的人有戴眼镜也有不戴的,并且肤色多种多样。脸部位于图像中央且背景整洁,以便专注于面部的识别。
下载Head Pose Image数据集:https://gas.graviti.cn/dataset/data-decorators/HeadPoseImage
发布方: Lior Wolf,以色列特拉维夫大学Blavatnik计算机科学学院
发布时间:2012
数据集大小:671.41GB
YouTube Face是一个人脸视频数据库,旨在研究视频中非受限情况下的人脸识别的问题。数据集包含1,595个不同人的3,425个视频,都是从YouTube下载的。每个主题平均包含2.15个视频。视频剪辑持续时间最短为48帧,最长为6,070帧,平均长度为181.3帧。
每人的视频数量:
#videos |
1 |
2 |
3 |
4 |
5 |
6 |
#人 |
591 |
471 |
307 |
167 |
51 |
8 |
下载YouTube Face DB数据集:https://gas.graviti.cn/dataset/shannont/YouTubeFacesDB
发布方:香港中文大学Multimedia Laboratory
发布时间:2016年
数据集大小:9.55 GB
CelebFaces属性数据集(CelebA)是一个大规模的面部属性数据集,其中包含超过20万名人图像,每个图像都有40个属性注释。该数据集中的图像涵盖了较大的姿势变化和背景杂波。CelebA具有多种多样,数量众多且注释丰富的特点,包括:
2020年,香港中文大学multimedia laboratory又发布了两个相关数据集CelebAMask-HQ and CelebA-Spoof。
下载CelebA数据集:https://gas.graviti.cn/dataset/shannont/CelebA
发布方:computer vision lab, ETH zurish
发布时间:2015年
数据集大小:276.23GB
IMDB-WIKI人脸数据集由IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。
下载IMDB-WIKI数据集:https://gas.graviti.cn/dataset/hello-dataset/IMDbWiki