graviti
产品应用市场解决方案知识库公开数据集关于我们

格物钛解码海外大厂管理非结构化数据痛点

发布于2021-11-19

随着AI和5G时代的到来,常规的结构化数据交互已经不能满足人们的需求。而伴随着数字化和AI的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被智能化利用。对于一个组织来说,如何将有限的资源在算力、数据、人员上进行合理配置是非常重要的。而坐标硅谷的海外大厂工程师们如何管理海量数据、如何让AI更好落地赋能业务创新,也是备受业界关注的热点。

近日,在格物钛主办的线上直播「钛TALK」第一期格物钛创始人CEO崔运凯与几位来自Facebook、Nuro、Aurora等海外大厂的工程师朋友交流前沿的非结构化数据管理技术趋势与实践,就管理现状、实践与探索等创新话题进行了深入探讨。


嘉宾们表示,不同行业对于数据管理的需求和收集数据的量级并不相同,实际应用中的管理痛点也不一致。以AR/VR领域为例,目前以个人用户和企业用户为主,整体数据大小在几百TB到上千TB不等,可以基本保证算法工程师开发出一套高效的实时算法。这些数据往往和真实世界相关,在收集的过程中需要保持高度的私密性,工程师们在协同操作时更在意数据安全。

自动驾驶行业使用基于机器学习开发的预测和规划系统,需要收集的数据量逐年增加,数据场景更加复杂。由于实车测试时遇到典型场景的密度太低,造成测试效率数量级上的落后,自动驾驶企业对于虚拟仿真的依赖性也在提升。虚拟仿真能够以非常快的遍历速度和极高的场景密度让自动驾驶系统在更多场景下对算法逻辑和功能进行验证,其算法逻辑验证的效率是实车测试的数百、上千倍。即使是像特斯拉这样的超级企业,进行大规模真实路测也有无法收集到的稀缺场景案例,只能通过工程师人为创造场景来进行测试。而使用虚拟仿真系统需要更多的使用场景,算法工程师们会使用一些测试用例用于仿真测试,这些测试用例被每一个开发或者验证时都需要跑不同等级的仿真进行验证,经过长时间不同开发者的数据累积,导致虚拟仿真产生的数据量的级别比实际路测还要大的多。尽管如此,仍然有大量未知的未知场景等待开发者们去发现。完成收集数据之后,在广袤的数据库中如何找到对于仿真测试或实验有用的高质量数据是算法工程师们面对的难题之一。


在不久前举办的特斯拉人工智能日上,关于如何找到未知的未知数这个问题,特斯拉提供了两种相对有效的解决方案。一种方法是,工程师们会在测试车上写各种正常情况的路况来训练AI,在路测时如果出现超过正常场景之外的情况,那么收集到的数据则非常有可能是珍贵的未知数据。另一种方法则是通过仿真训练来设置未知场景,让人工智能自行应对具体情况,扩大未知数据库。嘉宾们认为,这两种办法对于自动驾驶行业的开发者来说都意味着大量的数据存储与处理需求,在训练过程中会有很多的存储是浪费在存储大量重复的数据上,在协同工作时,由于数据并不互通,还会形成数据孤岛,从中找到高价值数据变得更加困难,AI企业对于高效数据管理平台的需求正在逐步提升。


海外大厂们拥有众多算法工程师,在管理数据时一般会选择自建平台,完成数据整理、AI模型训练等操作,但这往往伴随着高昂的人力成本和算力成本,是大多数中小企业无法承受的。嘉宾们也提到,大厂的数据管理系统是十分复杂的,一则数据来源种类繁多,二则不管机器生成的数据或人为标注的数据或通过其他方式采集的数据,这些数据本身的质量并不相同,在处理过程中会出现不同的问题。在最后结果没有达到预期时,算法工程师们也无法确定是模型还是数据出现问题。因为参与其中的开发者较多,测试的数据量庞大,出现问题时难以进行追溯,数据的版本管理难是越来越多企业面对的痛点。


随着非结构化数据量的增速逐渐加快,自建平台无法满足内部数据管理需求,大厂们也会考虑使用第三方数据平台,与外部供应商们对接。既要保证数据的安全,又要建立统一的数据标准,适配公有云、私有云以及本地化部署,而这正是格物钛专注达到的终极目标——建立一个标准化且安全的数据平台,帮助AI开发者们快速找到高质量数据,通过可视化呈现、自动化工作流等功能,助力企业产品迭代,加速人工智能产业发展。


以非结构化数据为主导的未来终会到来,对企业来说,越早开始采集非结构化数据,在未来训练AI进行数据分析时就越行之有效。而创业公司如何搭建数据管理团队,嘉宾们也给出了自己的看法。在一个以数据驱动为主的团队里,初期会有一些算法工程师来处理数据相关的工作,其中最重要的是data pipeline的建立,数据的存储以分布式为主,但最终整个数据处理流程需要进行统一接口管理,根据团队内部不同的需求进行接口开放,一方面保证数据安全,另一方面便于团队内部协同合作,配合数据迭代,提高工作效率。

格物钛创始人崔运凯表示,我们现在还在整个数据爆发的前夕,不管是无人驾驶行业,还是AR/VR行业,AI都还没有达到很高的普及率,格物钛致力于为企业训练AI做好奠基石,向全球AI创新企业及团队、前沿高校实验室和机器学习开发者社区提供数据平台支持,为人工智能产业赋能,推动企业高质量发展。