graviti
产品应用市场解决方案知识库公开数据集关于我们

观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的底层逻辑和场景化实践

发布于2022-02-28

2021年12月30日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的 “AI数据治理技术沙龙”通过腾讯会议进行。格物钛智能科技产品专家李薇对非结构化数据平台的底层逻辑和场景化实践进行了介绍,分享了自己的见解与思考。

01 非结构化数据的现状

近年来,文本、语音、图像、视频以及点云等非结构化数据增长迅速,IDC预计未来5年内企业80%的数据将会由非结构化数据组成。非结构化数据具有海量、分散、多样、异构等特点,目前企业对非结构化的管理也是相对原始和落后的,他们用传统的文件管理系统,80%的空间在存储重复的数据、工程师60%的工作时间在进行数据搜索、40%的数据处理时间在用于数据从硬盘读到内存和从内存写到硬盘。

非结构化数据管理面临的挑战:

1、管理手段原始,没有成熟的管理工具和手段。

2、数据场景割裂,没有数据链接的平台,数据无法串联到一起。

3、角色分散

4、应用工具割裂

5、流程割裂,面对海量数据管理,没有适合的流程。

这些问题导致了目前数据管理的人力成本高、时间成本高、管理数据规模无法扩大,造成了数据价值流失。

02 高质量数据作用关键

李薇提到,非结构化数据和结构化数据最大的不同,是非结构化数据几乎无法直接使用,如果想要从海量的非结构化数据中提取出重要信息,绝大多数情况下依靠的是AI的方法。知名机器学习专家吴恩达一直在强调这样的观点,AI模型已经接近固定,AI从 Model Centric 向 Data Centric 转变,代码上的改变已经无法满足许多应用场景的精度需求,只有通过提升数据的质量才能更快提升算法结果的准确性。Google有一篇论文讲到,在真正设计复杂AI的过程中,算法只占据了很小的一部分,核心的内容在数据层面,数据的处理会占用大量的时间和人力。随着AI的进一步发展,对数据质量的要求不断提升,然而高效的数据管理系统缺失为企业AI落地带来巨大挑战。

03 组织方式的变革

李薇提到,在AI的发展过程中,传统的模式是由算法工程师完成全部的工作,包括数据的采集、标注、训练和参数调整等,面对数据量级别不断上升,只由算法工程师完成是难以实现的,会导致数据管理成本较高,无法支持大规模复杂数据的应用。

随着现在AI的发展趋势,组织形式正在不断演进,职责分化诞生新的功能模块。由数据运维工程师完成数据标注、清洗、增强、聚合等工作,后续再由机器学习工程师完成对模型的训练,而算法工程师仅需关注算法的开发。新的组织带来协作难度升级,也需要新的系统和工具来支持。

04 新一代非结构化数据平台

上一代的数据平台是汇聚传统SQL数据库数据支持检索和分析的平台,格物钛智能科技作为非结构化数据赋能专家,为企业及AI开发者提供全新的智能时代数据管理方案,以数据引擎为核心技术,打造下一代数据平台,帮助更好地释放非结构化数据潜力,助推AI工程化和数据资产化最佳实践。

此平台可以支持多维度的非结构化数据,同时通过应用市场对接到不同的数据应用,使用户的数据在整个研发生命周期中通过平台进行管理,同时平台也能将数据的价值运用到各行各业。

简单来说非结构化数据平台解决两个核心问题:数据流转和数据管理。横向上可以简单理解为应用层,格物钛提供更好的工具让数据流转更快,比如数据检索、可视化、版本管理、自动化等等;纵向上在基础和技术层,格物钛自研数据引擎,就像汽车引擎一样给数据提供动力,让它能够更好地应对海量和复杂度挑战,实现更低成本、更大规模。

05 数据引擎驱动性能革命

格物钛自研的数据引擎,带来三大平台性能优势:存算分离、多维度的高效数据检索和自动化。底层的存储部分支持多种存储服务,使用了存算分离的架构设计,可以实现更低成本、更大规模;中间层是跨平台及存储方案的版本管理系统和数据索引加速器,可以支撑上层所有数据的应用、也可以更快地进行数据检索和操作工作;再上层是一个灵活的调度系统,可以基于轻量的系统进行横向无限扩展。另外一部分是允许用户去自定义代码,实现更加复杂的数据转化以及数据查询的逻辑。格物钛数据平台帮企业用户筑牢新基建底层,驱动海量复杂数据的灵活存取用,让机器学习更敏捷。

06 解决的场景和案例

格物钛数据平台在AI开发过程中重点解决三大场景问题——数据发现、数据迭代、数据流自动化。

发现高价值数据:支持标签化筛选、可视化呈现,瞬间实现复杂场景检索和结果查看;

高效管理和协同:清晰的权限管控和版本管理,让协作更安全、迭代可追溯;

自动化数据处理:自定义工作流和开发者工具无缝衔接,低成本加速数据流动和迭代。

格物钛正在将创新技术与实践深度结合,助力AI落地和百业智慧升级。以自动驾驶和物流行业为例,格物钛帮助某自动驾驶公司打造数据闭环,成功将模型迭代效率提升50%;某头部物流企业利用视觉技术对全国几百个港口、园区等不同场景下的人、车、货、仓要素进行全流程管控,每开发一个功能需要3个工程近3个月时间,格物钛数据平台解决方案为其把准备周期从以周为单位缩短到以小时为单位,解决了数据量大、数据质量差等痛点,提高了该企业在AI开发过程中的效率,实现了更全面的数据管理和数据采集、筛选、上传的流程自动化。

李薇总结到,随着终端全方位感知物理世界和云的普及,未来非结构化数据潜能会进一步被释放,利用非结构化数据的AI场景将更为广泛,算法模型开发有效提升,促进了AI工程化落地,并已在安防、金融、客服、零售、医疗健康、广告营销、教育、城市交通、制造、农业等领域实现商用,达成了规模效应。越来越多的企业将在格物钛的帮助下释放积累数据的无限价值。