机器学习数据集
作者:graviti
发布于 11/29/2020

机器学习数据集简介

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。机器学习最成功的应用领域是计算机视觉,虽然也还是需要大量的手工编码来完成工作。人们需要手工编写分类器、边缘检测滤波器,以便让程序能识别物体从哪里开始,到哪里结束。

而数据集是机器学习必不可少的核心,机器学习数据集定义为训练模型和进行预测所需的数据集合。这些数据集分为结构化和非结构化数据集,其中结构化数据集采用表格格式,其中数据集的行对应于记录,列对应于要素,非结构化数据集对应于图像,文本,语音,音频等。通过数据采集,数据整理和数据探索获得的数据,在学习过程中,这些数据集被分为训练,验证和测试集,用于训练和测量模式的性能。

数据分析所需的三个主要步骤

  1. 数据采集
  2. 数据整理或数据预处理
  3. 数据探索

数据集类型

在训练模型的过程中,我们经常遇到过度拟合和拟合不足的问题。为了克服这种情况,我们通常将数据集分为3个不同的部分:训练数据集、验证数据集、测试数据集,上述三类数据集,基本呈现出60:20:20的比例。

1.  训练数据集: 此数据集用于训练模型,调整参数,即改变模型的权重。

2.  验证数据集: 此类数据集用于减少过拟合。如果我们使用训练中未使用的数据测试模型,则可用于验证训练数据集准确性的提高是否真实得到了提高。如果训练数据集的准确性增加而验证数据集的准确性减少,则表示方差较大(即过拟合)。

3.  测试数据集: 通常情况下,当我们尝试根据验证集的输出结果对模型进行更改时,会使模型窥视了验证集,所以我们的模型可能会过度拟合验证集。为了解决这个问题,会专门提供一个测试数据集,仅用于测试模型的最终输出,以保证其准确性。

数据类型

让我们从机器学习的角度了解数据集中可用数据的类型。

1.数值数据

任何数字的数据点都称为数字数据。数值数据可以是离散的或连续的。连续数据在给定范围内具有任何值,而离散数据应具有某个确定值。例如,汽车的门的数量将是离散的,即两个,四个,六个等,而汽车的价格将是连续的,可能是1000美元或1250.5美元。数值数据的数据类型为int或float。

2.分类数据

分类数据用于表示特征。例如汽车颜色,制造日期等。它可以是一个数字值,用该数字表示类别。例如,1可以用来表示汽油车,0可以用来表示柴油车。我们可以使用分类数据来形成组,但是不能对它们执行任何数学运算。它的数据类型是一个对象。

3.时间序列数据

它是在一定时间段内以固定间隔收集的一系列数字的集合。这非常重要,例如在股票市场领域中,我们需要在固定的时间间隔后确定股票价格。数据类型具有附加的时间字段,因此可以轻松地查看数据的时间戳。

4.文字数据

文本数据即文字。处理测试数据的第一步是将其转换为数字,因为模型是数学的。因此,我们可以用函数将所有单词表述出来。

分享到:
立即开始构建AI