graviti
产品公开数据集应用市场解决方案知识库关于我们

常用深度学习数据集简介

发布于2021-04-25

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。

深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。

简单来说,可以把深度学习理解成一个智能的人类大脑。在现实生活中,我们可以根据自己的直觉和经验处理事务,而深度学习则是让计算机模拟人类的认知过程,“学习”人类解决问题的思路和方法,让计算机像人类一样,可以根据层次化的概念体系来理解世界。通过构建许多相对来说比较简单的概念来让计算机学习复杂的概念,我们称这种方法为深度学习。

不难发现,在计算机科学中,深度学习的概念源于人工神经网络的研究,是机器学习研究中的一个新的领域。其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如,图像、声音和文本。深度学习的常用模型与方法包括:自动编码器、限制波尔兹曼机、卷积神经网络等。

深度学习在人工智能领域具有巨大的发展前景。从研究方法上看,计算机科学对深度学习的研究多采用设计、开发的方法,创新提出或基于已有深度学习模型,通过计算机程序算法逐步攻克技术难题,推动了语音识别、图像识别、视频分类与行为分析等多领域的不断发展。

目前在人工智能应用领域常见的深度学习领域有以下几种

1.计算机视觉

生物特征识别:人脸识别、步态识别、行人ReID、瞳孔识别。

图像处理:分类标注、以图搜图、场景分割、车辆车牌、OCR、AR。

视频分析:安防监控、智慧城市。

2.自然语言处理

语音识别(Siri、Cortana、讯飞)、文本数据挖掘、文本翻译。

3.数据挖掘

消费习惯、天气数据、推荐系统、知识库(专家系统)。

4.游戏

角色仿真、AlphaGo(强化学习)。

5.复合应用

无人驾驶、无人机、机器人。

深度学习虽然发展历程没有很长,但是随着应用问题的日益复杂,AI领域的飞速发展,深度学习的重要性也随之提高,深度学习数据集的需求量也日益增大。国内开放的数据集网站较少,推荐一个免费高速下载网上公开数据集的网站Graviti。https://www.graviti.cn/

下面将为大家介绍一些经典的深度学习数据集素材以及高速下载地址,再也不用担心找不到合适的数据集了!

深度学习经典数据集以及高速下载地址

1.数据集名称:Dogs vs Cats

数据集简介:

“Dogs vs Cats”是Kaggle上的一项竞赛,需要编写一个算法来对图像中包含的是狗还是猫进行分类。训练档案中有25000张狗和猫的图像。

数据集格式:Image

数据集大小:818MB

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/DogsVsCats

2. 数据集名称:MNIST

数据集简介:手写数字的MNIST数据库有60,000个样本的训练集和10,000个样本的测试集。它是NIST提供的一个更大的集合的子集。这些数字已经被大小标准化,并在固定大小的图像中居中。对于那些希望在实际数据上尝试学习技术和模式识别方法,同时又不需要花费太多精力进行预处理和格式化的人来说,这是一个很好的数据库。

数据集格式:Image

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/MNIST

3. 数据集名称:COCO

数据集简介:

COCO是一个大规模的目标检测、分割和字幕数据集。COCO有几个特点:

目标分割

在上下文中识别

超像素素材分割

330K图像(>200K标记)

150万个对象实例

80对象类别

91种材料类别

数据集格式:Image

数据集高速下载地址:https://gas.graviti.cn/dataset/shannont/COCO

4. 数据集名称:CIFAR-10

数据集简介:CIFAR-10数据集由10类60000张32x32色图像组成,每类6000张。训练图像50000张,测试图像10000张。数据集分为五个训练批次和一个测试批次,每个批次有10000张图像。测试批次包含1000张从每个类中随机选择的图像。训练批次以随机的顺序包含剩余的图像,但一些训练批次可能包含更多的图像来自一个类比另一个类。在它们之间,训练批次包含来自每个类的5000张图像。这些类是完全互斥的。汽车和卡车之间没有重叠。“汽车”包括轿车、越野车之类的东西。“卡车”只包括大卡车。这两项都不包括小卡车。

数据集格式:Image

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/CIFAR10

5. 数据集名称:Fashion-MNIST

数据集简介:fashionmnist是Zalando文章图像的数据集,包括60,000个样本的训练集和10,000个样本的测试集。每个示例是一个28x28灰度图像,与来自10个类的一个标签相关联。我们打算Fashion-MNIST作为对基准机器学习算法的原始MNIST数据集的直接替代。它具有相同的图像大小和结构的训练和测试分割。

数据集格式:Image

数据集高速下载地址:https://gas.graviti.cn/dataset/data-decorators/FashionMNIST