graviti
产品公开数据集应用市场解决方案知识库关于我们

格物钛CPO王广宇:应“云”而生的下一代数据平台

发布于2021-11-02

德国社会学家卢曼曾指出,社会分化水平是人类社会进步的标尺,而社会功能分化是社会分化的核心。

这个理论在商业环境中也一样成立。随着一个领域的发展,产业链的上下游逐渐明确,产生更细致的功能划分。其中有的占据产业链的一小个环节,精耕细作;另一些发现产业链上的痛点,为所有企业打造优化路径。

比如在人工智能领域,随着行业的发展和技术的精进,横向分化出了专注于不同场景的细分赛道,纵向分化出了不同产业链环节的赛道。比如人工智能基础设施,已经从业务层面分化出来,发展为单独的领域。而根据人工智能的三大要素「算法、算力、数据」,人工智能基础设施又分化为算法平台、芯片、数据管理三大单独版块。

「分化」的目的是为了提高生产效率,这在「数据管理」上体现得尤为显著。

人工智能产业的高速发展主要得益于以GPU芯片为主的算力的发展。但即使训练的成本缩减了许多,数据标注、清洗等前期准备仍然耗费了大量时间,研发效率没有显著提升。

基于该痛点,格物钛推出了「数据平台」,解决人工智能企业在数据管理、处理等方面的问题。

格物钛专注打造人工智能新型基础设施,通过非结构化数据平台和公开数据集社区等平台,降低高质量数据获取、存储和处理成本,释放海量非结构化数据的商业价值。近期朋湖网专访了格物钛CPO王广宇先生,一同探讨人工智能数据管理的困境与机遇。

非结构化数据需要新技术来管理

人工智能的发展离不开海量数据,尤其是经过标注与处理的数据。然而根据IDC测算,企业80%的数据是非结构化数据。

非结构化数据是相对于结构化数据而来的。结构化数据是指能够被以固定形式存储在文件夹、数据库的数据。一般来说,通过系统生成的数据,比如姓名、ID、年龄、订单号、点击行为等都是结构化数据。非结构化数据是指在数据生成后无法直接进行存储和处理的数据。比如人工智能领域经常要用到的视频、图像、文本等都属于非结构化数据。

人工智能的发展需要海量经过处理的非结构化数据。一方面,随着产业的发展,会产生更多可用于人工智能算法的非结构化数据;另一方随着技术的精进,也让通过技术来处理、管理非结构化数据成为可能。

机器学习研发人员成本,由格物钛提供

在王广宇看来,人工智能企业在处理、存储非结构化数据的过程中,主要会面临三方面的痛点。

第一,无法快速发现高价值数据。拿图像识别领域来说,一张图片如果要成为可以做算法训练的数据,一般会拥有Raw Data(图片本身)、MetaData(元数据,采集数据时候拥有的原始信息,如采集时间、设备、地点等)、用来描述MetaData的文档、Annotation Data(标记信息)、用来描述标记信息的文件等信息。但企业内部是根据单张图片的信息为单位作为文件夹、还是根据不同数据类型的信息为单位作为文件夹,或根据更复杂的方式来整理信息,很难统一。工程师在调取数据时,无法快速操作,甚至可视化筛选结果。

第二,无法高效管理和协同。由于数据的版本较多,且算法工程师团队庞大,经常需要调取多维度数据进行测试并修改结果。在团队协同工作时,经常无法确定调取的数据版本,即使测试成功,追踪使用的数据版本也需耗费大量时间。

第三,人工处理数据耗时过长。在寻找到可用数据之后,工程师一般需要将文件再次复制到新的文件夹来使用。这带来了复制时间的浪费和存储空间的浪费,也增加了未来再次检索数据的难度。大量重复的手动工作,占据了工程师的工作时间,减缓AI开发速度。

格物钛数据管理平台核心功能介绍,由格物钛提供

为了解决这些痛点、提高数据管理的效率,格物钛为企业提供了云端的数据管理智能化平台。平台设定了数据文件的存储格式,客户只需按标准上传,即可获得方便可用的非结构化数据。格物钛基于此提供数据信息的检索功能;并将数据调用过程改用索引模式以节省成本;提供数据分析功能帮助工程师对数据点查漏补缺。

问及格物钛数据平台能为人工智能企业节省多少成本,王广宇表示,虽然产品目前还没有深入到数据管理的各个方面,但现有的功能已经能为每位工程师每天节省一小时左右的时间。对于整个算法团队来说,这不仅仅是几个工作小时的节省,更是整个团队协作效率的提升、工作体验的提升。

在科技产业,不仅要产业链的依靠功能分化来提升效率,更应该依靠技术来解决行业的痛点。让算法工程师专注于算法,不仅仅是创造价值,也是一种技术的关怀。

用「开放数据集」解决数据获取的困境

除了数据的管理,对于研究者、初创企业,以及泛人工智能算法企业来说,在数据获取方面也总是需要耗费大量的时间和精力。

一方面,对于工程师来说,数据获取的渠道较少、难度较大。以无人驾驶领域为例,许多企业用到的数据都来自nuScenes或KITTI等渠道。虽然这些数据的标注信息在质量和格式上都有保障,但工程师为了获得这些数据,需要写一个邮件给对方并等待回复。这样时间成本过大,来自特定公司的数据的多样性也有待考证。

加之每个公开数据集的格式和描述都不统一,工程师只能花费数天时间下载、解压、渲染过后才能判断数据的质量和可用性。这样的不确定性又会带来人力和时间的浪费。

另一方面,对于希望发布数据的企业来说,目前公开的渠道有限、且成本较高。企业在打包数据后,只能选择发布到官网、网盘或GitHub等平台上。但体积较大的数据有较高的存储成本,且发布后如果没有同业的宣传,也很难被检索和使用到。

格物钛公开数据集社区主页面,来自格物钛官网

通过定义存储标准,格物钛的「公开数据集社区」让企业能够上传自己的数据、统一标注格式,尝试解决AI开发者寻找数据困难的困境。如果数据的下载量和使用评价不错,数据发布的企业也会获得推荐和展示,对企业来说是一个宣传渠道。

对于工程师和研究者来说,公开数据集社区里的数据可以根据场景、标签、任务、数据类型等维度进行搜索,并能查看到详细的、可视化的介绍,大大降低了试错成本。

这成为了格物钛的一个宣传拓客渠道。但王广宇强调说,「做这件事初衷是因为我们觉得对人工智能的发展和科研有价值」。目前,平台有超过三分之一的用户是高校学生或研究员。

数据的公开、共享一直是行业的诉求,但现状离产业所期待的形态还差很远。

由国家信息中心大数据发展部牵头的研究小组于今年发布论文《全国一体化大数据中心引领下超大规模数据要素市场的体系架构与推进路径》,提出要构建完整的数据要素市场化体系,包括数据共享、数据开放、数据交易。

对于整个人工智能产业来说,公开数据能够让类似的数据更加多元,推进算法精进;公开汇集的大量数据集,也能够促进行业标准的成立。

除了格物钛,大型的图像识别公司、高校也成立了数据集开放平台,或尝试公开自己的数据集。旷视天元Megstudio平台汇集了旷视的公开项目以及同业研究者主动上传的图像数据集,商汤也曾发布了迄今为止数据量最大的人脸检测数据集。

然而在语音识别、自然语言处理等更多人工智能的商业企业中,似乎还没有类似的平台。这是因为,这些领域还没有图像识别发展得那么快、数据量也没有那么大,标注过的数据依旧是企业发展的资源壁垒。在这样的背景下,单靠企业的社会责任,以及微不足道的宣传效应无法提升企业公开数据的意愿。

同时,与结构化数据一致,非结构化数据在数据共享、公开的过程中也面临着安全性的问题。相对而言,非结构化数据由于难以检索,监管也会面临更多困难。除了鼓励隐私计算在非结构化数据中的应用之外,政策方面的保护和保障、行业标准的搭建也同样重要。

数据管理产业链需要竞争与融合

数据是人工智能产业发展的基石,人工智能的发展离不开数据质与量的提升。

根据艾瑞的测算,2020年人工智能数据管理的市场规模约为50亿,占人工智能基础设施的10%左右。相比其他人工智能领域,数据管理显然是人力需要大但单价较低的行业。亟需持续的人力投入和技术创新。

发现行业痛点且拥有技术实力的格物钛没有走入一团混沌,而是选择了一条纯技术的道路。

「我们不提供数据采集、标注服务,只提供管理平台和工作流。可以理解为我们只提供仓库,以及工厂流水线的工作台」,王广宇觉得格物钛非常清楚自己的价值与责任,应当专注于能够靠技术解决问题的领域。

在商业模式方面也是一样,格物钛目前产品以云端部署为主,根据存储空间、使用量付费。「许多客户提出想要本地化部署,我们推出了混合部署的方案,以满足客户的需求」,对此王广宇显得非常坚定。定制化服务与本地部署后,虽然产品的更新需要投入更多人力,但也促进了格物钛产品的迭代加速,适应市场需求。

纵观数据管理产业链,也有一些企业正在从不同的角度切入格物钛所在的领域。

在国外,Scale.ai在深耕数据标注领域之后,开始提供数据管理服务和开放数据集平台;专注于AI数据版本管理的DVC,也开始深入数据评估和数据智能分析领域。

在国内,数据管理领域目前主要的发展还集中在数据标注。以京东、百度、阿里为首的互联网厂商的众包标注模式,与以海天瑞声、数据堂、云测为首的自建团队、项目制模式各占半壁江山。这些公司均有意向进入数据管理的赛道,同时机器学习、数据库等平台如第四范式、星环等也正在往人工智能底层数据服务发展。

竞争与合作是相伴而生的,而格物钛更关注后者。2020年5月,格物钛进入英伟达初创加速计划;2021年7月,格物钛入选首届腾讯云原生加速器。依靠着大厂及其合作厂商的资源,格物钛积极寻求业务融合的可能。

应用市场界面,来自格物钛官网

在未来,格物钛希望打造一个人工智能基础数据的应用市场,让客户在选购格物钛开发的产品的同时,也能看到产业链各个环节上其他公司的产品,比如算法提供商、机器学习平台等等。

正是SaaS的快速发展,才带来了这种2B应用市场的可能性。这样的应用市场既是小企业的互助融合,又给客户带来更多一些选择。这不是为了创造对抗大型企业的能力,而是给行业更多一点机会和选择。

创业公司面对的困境确实与大企业不同。曾就职于携程、阿里巴巴的王广宇也笑称「在格物钛创业的每天都有在前线的感觉」。从面向C端到面对B端,一直负责产品的王广宇在接近用户理解用户的道路上努力着。虽然人工智能数据管理的产品是面向企业与技术的,但使用者的还是工程师、是真实的具体的人。「得要让他们觉得你理解他们,又能给他们带来价值」。

作为首席产品官也要直接面对用户,这是初创企业的困境,也是优势。正是这样,企业才能发现痛点、优化产品、更好地服务客户。

在人工智能产业里,也许我们都像是搭建起算法的小小数据,但我们也都可以不止把彼此当作数据