随着自动驾驶等领域的快速发展、传统的机器学习算法难以处理复杂多变的数据,传统的结构化数据也不能满足工程师的所有需求,非结构化数据集体量迅速膨胀增多。但是,目前大部分提供数据集服务的供应商,都只能下载下来才能看到数据集“全貌”,除此之外几乎无法以直观的方式了解整个数据集,也没有办法对数据集进行分析和调适。极大的增加了工作耗时和数据集管理的麻烦。
非结构化数据管理的最大难点之一是“无法在线预览”。用户在下完数据集后还要写代码做数据可视化,常常会有图片格式错误、标注质量差,甚至根本不是自己想要的数据集等一系列令人头秃的问题……
针对这一问题,智能科技公司Graviti提出了高效的解决办法。在Graviti 推出的公开数据集平台OpenDatasets上,用户可以完美跳过下载步骤,无需另写代码,通过Graviti组件式数据可视化工具在线预览原数据、标注数据、数据特性(数据标签及属性分布),还可以通过COPY预览页面的URL/IFRAME将可视化组件嵌入到自己的页面。在线可视化数据集网址https://www.graviti.cn/
接下来将为大家介绍几种常见的在线数据可视化类型,以及常见可视化类型的代表数据集介绍,并附数据集在线浏览地址。
1.主流视觉类数据及标注信息的在线可视化
数据集名称:BDD100K
数据集简介:本数据集包含了10万个视频,代表超过1000小时的驾驶体验,超过1亿帧。视频带有用于轨迹信息的GPU/IMU数据。BDD100K数据集现在提供10个任务的注释:图像标记、车道检测、可驾驶区域分割、目标检测、语义分割、实例分割、多目标检测跟踪、多目标分割跟踪、领域适应和模仿学习。这些不同的任务使异质多任务学习的研究成为可能。
在线预览链接:https://gas.graviti.cn/dataset/data-decorators/BDD100K
数据集预览:
2.支持融合数据的在线可视化,融合数据信息及其标注类型清晰可见
数据集名称:nuScenes
数据集简介:
nuScenes数据集是一个带有3d对象标注的大型自动驾驶数据集。它的特点:
●全传感器套件(1x激光雷达,5倍雷达,6倍摄像头,IMU,GPS)
●1000个20多张的场景
●140万摄像机图像,390,000个激光雷达扫描
●两个不同的城市:波士顿和新加坡(左对右交通)
●详细地图信息
●为23个对象类手动标注1.4M3D边框
●属性,如可见性,活动和姿势
新增:1.1B激光雷达点手动注释32类
新功能:在sisearch上探索新生儿场景
●免费用于非商业用途
在线预览链接:https://gas.graviti.cn/dataset/motional/nuScenes
数据集预览:
3. 支持音频数据的分类、转录和在线播放,以及文本类数据及标注的清晰展示
数据集名称:THCHS-30
数据集简介:语音数据是语音识别研究的关键。有相当多的语音数据库可以以对大多数研究机构来说合理的价格购买。然而,对于那些刚开始研究活动或刚开始对这个方向感兴趣的年轻人来说,数据成本仍然是一个恼人的障碍。我们支持语音识别中的“自由数据”运动:研究机构(特别是由公共基金支持的机构)免费发布他们的数据,这样新的研究者就可以获得足够的数据来开始他们的事业。THCHS-30可以用来构建一个全面的汉语语音识别系统。
在线预览链接:https://gas.graviti.cn/dataset/data-decorators/THCHS30
数据预览:
4. 支持分布可视化,通过列表、柱状图、饼状图的形式清晰查看数据分布信息
数据集名称:BSTLD
数据集简介:BSTLD,一个精确的数据集基于视觉的交通灯检测。仅基于视觉的交通灯检测和跟踪是在城市环境中实现全自动驾驶的关键一步。希望这个数据集可以方便地测试目标检测方法,特别是对于大图像中的小目标。这些场景包括了相当多的道路场景和典型的困难。
在线预览链接:https://gas.graviti.cn/dataset/data-decorators/BSTLD
数据集可视化: