graviti
产品公开数据集应用市场解决方案知识库关于我们

什么是数据集及公开数据集

发布于2020-11-28

数据是这个时代的新能源,在这10年中,几乎所有行业都或多或少的受到人工智能的影响。数据是AI的核心,精标注数据可以提升AI模型的性能,是每个企业升级或者调整战略的基础依据。

什么是数据集?

数据集,又称资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合。数据是表示为文本,数字或者多媒体的观察值或度量值(未处理或已处理)。数据集是通常与某种工作领域相关的数据集合。数据库是存储为多个数据集的数据的有组织的集合,通常从计算机系统以电子方式存储和访问数据库,从而可以轻松访问,操作和更新数据。

什么是非结构化数据集?

随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。非结构化是指未以结构化数据库格式存储的数据集(典型的大型文件集合)。非结构化数据具有内部结构,但不是通过数据模型预定义的。它可能是文本或非文本格式的人为生成的数据或机器生成的数据。然而真正能够使用并且管理非结构化数据是现在人工智能领域的一大问题。

和结构化数据相比,非结构化的数据最本质的区别包括三个方面:

1. 非结构化数据的容量比结构化数据更大;

2. 产生的速度比结构化数据更快;

3. 数据来源更具有多样性。

从形态上,非结构化数据主要包含三大块:

1. 文本文字;

2. 图像、图片等;

3. 视频流、电视流。

半结构化数据

半结构化数据是介于结构化数据和完全无结构的数据之间的数据。它是结构化的数据,但是结构变化很大,也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。也就是它一般数据的结构和内容混在一起,没有明显的区分。比如日志文件、XML文档、JSON文档、Email等。

传统的数据分析方法和工具难以从非结构化数据中获取到信息。数据科学家可以结合NoSQL数据库对非结构化数据进行人工解析。但是这样无疑为数据科学家增加了大量的工作。当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供基础设施,并没有针对数据本身提供解决方案,不同的行业数据应该如何组织、如何训练、如何形成行业知识库还没有。而市场上很多数据公司,则专注于某个领域的数据,如公安、电商、咨询等行业,提供行业性的解决方案,并且取得了可观的成果。

新兴人工智能产业如格物钛Graviti就是非结构化数据管理专家,为AI开发者与开发团队提供数据托管、版本管理、在线可视化、数据协同等服务,可以通过开发者工具在线集成于云端使用数据。

什么是公开数据集?

近年来,人工智能快速发展,相关的框架、算法等层出不穷,要检验一个算法的好坏,就需要用有关的数据集进行实验。人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据集公开化是加快人工智能的必要步骤。开放数据是一种巨大的资源,目前尚未得到充分利用。但是有越来越多的公司、政府、机构选择公开数据并提供给其他人使用,希望能够促进行业的创新和进步。我们也整理了各领域常见AI公开数据集汇总,其中包含了众多领域的高质量公开数据集,为大家提供学习的资源。