开放数据集如何高效管理和使用
作者:Graviti
发布于 5/17/2021

你是否还在为苦苦搜寻数据集而薅秃头发?你是否还在为熬夜下载数据集,盯着0.1MB/s的进度条望眼欲穿?你是否还在为数据集占据过多内存而苦恼?

海量优质公开数据集搜索网站Graviti Open Datasets https://gas.graviti.cn/open-datasets、数据集覆盖无人驾驶、文本检测、行为/事件检测、语义分割、姿态估计、场景识别、面部检测、目标追踪、ASR、AR/MR、深度估计等 50+ 种AI应用领域;拥有2D分类、2D多边形、2D矩形等30+种标注任务;支持图像、视频、文本、语音、点云、IMU、3D模型等10+种主流数据格式,1000+优质数据集免费获取与使用,便捷云端使用,通过开发者工具,无需下载即可云端读取数据。在线高速下载数据集,再也不用担心“一杯茶、一包烟,一个数据集下一天”的情况发生啦!

Open Datasets数据集支持在线数据读取、在线数据管理和在线数据可视化等多种在线管理的优点。支持使用者在Open Datasets获取数据集后,选择Fork数据集,之后便能在TensorBay(数据管理Sass)对原数据集进行在线使用,享受一站式数据管理服务。

1.在线数据读取

以 MNIST的读取为例,可直接使用如下代码进行读取。

如果本地的网速不够给力,直接读取数据集的速度就会比较慢。但不用担心,只要开通和数据集相同区域的阿里云服务器,可通过服务器直接读取数据训练模型,丝滑程度超出你的想象!!

2.在线数据管理

面对庞杂的非结构化数据信息,如何存储、查询、分析、挖掘和利用数据显得尤为关键。传统的管理手段已无法满足身处复杂数据环境的智能系统(应用)的AI开发者。为了帮助AI开发者更高效地迭代模型,而不是耗费精力在数据管理上,TensorBay为AI开发者与开发团队提供数据托管、版本管理、团队协作等Saas服务支持通过开发者工具对数据进行直接管理和使用,与Pipeline轻松集成。

3.在线数据可视化

非结构化数据管理的最大难点之一是“无法在线预览”。用户在下完数据集后还要写代码做数据可视化,常常会有图片格式错误、标注质量差,甚至根本不是自己想要的数据集等一系列令人头秃的问题……在Open Datasets,用户可以完美跳过下载步骤,无需另写代码,通过Graviti组件式数据可视化工具在线预览原数据、标注数据、数据特性(数据标签及属性分布),还可以通过COPY预览页面的URL/IFRAME将可视化组件嵌入到自己的页面。

平台同时支持列表、柱状图、饼图等多种信息统计方式,帮助工程师提前掌握数据细节,试错成本大幅降低。

还等什么,马上打开官网,感受神仙网站带来的绝顶使用体验吧!

分享到:
立即开始构建AI