graviti
产品公开数据集应用市场解决方案知识库关于我们

如何管理海量非结构化数据

发布于2021-01-24

人工智能深度依赖的大数据主要是指非结构化数据。相比于结构化数据,非结构化数据海量且复杂。数量上,非结构化数据占数据总量的80%~90%;质量上,非结构化数据数据难以管理:消耗空间巨大,极易产生冗余,版本管理困难,共享途径原始,检索预览费时…… 这些难点让AI开发者苦不堪言,人工 > 智能日渐成为许多AI开发者的直观感受。不过,这些问题在TensorBay都能迎刃而解。

TensorBay:非结构化数据云端管理SaaS

TensorBay是专为AI开发者及AI开发团队打造的非结构化数据管理SaaS。致力于通过数据托管、数据版本管理、数据在线可视化及开发者工具等途径,提升开发效率,让AI开发者专注于开发过程。

01 安全可靠的云端托管

针对海量非结构化数据存储、整理困难这一痛点,TensorBay推出多种格式、多样场景与多个行业的云端数据托管服务,可在线管理原始数据、标注数据、Meta信息,随取随用!

✔ 动态扩容:本地上传、云数据迁移

✔ 支持Classification、2D Box、2D Polygon、2D Polyline、3D Box等主流标注类型

✔ 可管理复杂结构的数据集,例如追踪类、融合类数据集等

您可以在Graviti-我的控制台(GAS)体验无需数据迁移的云存储授权:直接读取、使用您在其他云服务器上指定路径下的数据集,不占用托管空间

02 清晰可溯的版本管理

TensorBay还提供原始数据与标注数据的版本管理服务,让每一次迭代尽在掌握

✔ 支持灵活上传、筛选、删除数据,基于当前数据集筛选结果创建新的数据集

✔ 发布、切换数据版本,为版本添加Tag及备注,借助版本可视化清晰追踪版本迭代过程

✔ 在任意历史版本的基础上重新开始数据的迭代,进一步提升工作效率

快速上传/筛选/删除数据、创建新数据集

随时查看、追溯历史版本

基于任意版本重新开始数据迭代


03 便捷高效的数据可视化

非结构化数据管理的最大难点之一是“无法在线预览”。而在TensorBay,您可以通过组件式数据可视化工具,无需下载、另写代码即可让数据集信息一目了然

✔ 支持查看主流的标注类型:Classification、2D Box、2D Polygon、2D Polyline、3D Box、Tracking与2D&3D Fusion等

✔ 兼容主流数据类型:图像、视频、激光雷达、红外线等

✔ 支持分享可视化组件:一行代码即可将可视化组件嵌入到您自己的页面

根据类型/标签/数据集Segment 快速筛选海量数据


轻松切换标注类型/标签标注分布

多种样式查看数据的标签及属性分布

支持多种可视化组件分享形式(URL / IFRAME)
支持多种可视化组件分享形式(URL / IFRAME)

                                 

04 简单易用的开发者工具

除了以上功能,TensorBay还提供SDK、CLI与OpenAPI多种开发者工具,支持快速上传标注、数据,读取数据,创建、发布数据集,排列数据信息,并提供完整的文档与使用案例,让您的数据与pipeline轻松集成


05 赋能开发者团队的数据协同

TensorBay的团队协同功能让您可以基于角色对团队成员进行权限管理,安全同步、分享数据,避免数据的反复复制与迁移,提高团队协作效率

✔支持团队内数据集的查看与检索

✔ 支持数据集维度独立管理权限

✔ 支持多种角色的数据集使用权限管理

06 轻松对接数据应用APPs

Graviti还拥有APPs服务,提供协同数据标注工具GrounTruth Tools以及专业的数据标注服务GroundTruth Service。未来,还将推出模型管理、沙箱训练、模型评估应用,敬请期待哦~

标注类:协同数据标注工具、专业数据标注服务

模型类:模型管理、沙箱训练、模型评估