Clubhouse|以数据为中心MLOps正在变革机器学习的开发方式
作者:Graviti
发布于 7/23/2021

人工智能(AI) 正在吸引越来越多的企业投资。随着机器学习技术的发展,MLOps 和 MLaaS(Machine Learning as a Service)开始产生更广泛的影响,可释放的潜在价值正在出现增长。

MLOps 不再被狭义地定义为“将 DevOps 的原理应用于机器学习程序的能力”,因为这样会忽略 MLOps 对客户的价值。MLOps 是机器学习时代的 DevOps,它的主要作用就是连接模型构建团队和运维团队,建立起一套标准化的模型开发、部署与运维流程。使得企业组织能更好的利用机器学习的能力来促进业务增长。

在 MLOps 的生命周期里,一些优秀的早期初创公司在海外已经出现,如 Scale AI,Aquarium等,在中国的MLOps赛道,也出现了一家同样优秀的公司格物钛致力于通过提供面向机器学习的数据平台,和构建以 AI 开发者为核心的开源数据集社区来降低团队和个人在AI开发过程中因处理非结构化数据带来的不断增长的数据存储、检索和处理成本。

近日,格物钛创始人崔运凯先生受邀参加由全美华人数据科学与工程协会和工友记主办的MLOps & MLaaS-AI 与数据科学技术发展及商业价值探讨活动,与海内外的数据科学家和投资人一起深入探讨了 MLOps lifecycle 的应用痛点以及 MLaaS 的发展

以下是崔运凯先生发言文字稿:

我是格物钛的创始人崔运凯,15年我加入了Uber的无人驾驶团队,从算法工程师做到了Tech Lead Manager,管理一个小的工程师团队去做大规模自动化建图。

后来回国进入了一家创业公司工作过一段时间之后,开始创业做了自己的公司——格物钛, 格物钛是做什么的?简单来讲我们在做一个面向机器学习和AI的数据平台,大家都知道这两年比较火的数据平台公司,一个是 Snowflake,另一个是今年马上要上市的Databricks,那我们和他们有什么区别呢?

格物钛与其他数据平台的区别

在2012年和2015年的时候, 深度学习还不是很火,绝大多数的公司都在处理SQL数据,比如说你有不同业务单元里面有不同数据库,怎么把SQL 数据聚合到一起,形成一个数据仓库或者数据湖,然后基于这个数据仓库和数据湖去做一些分析和查询

Snowflack就把 SQL引擎放在了一个非常重要的位置上,所以他所有的查询都是经过SQL引擎的。而 Databricks是把语言放到了一个很高的地位上,所有的查询都是通过一个语言和代码来实现的。但是最近几年我们发现AIoT和无人驾驶应用越来越火,积累了大量的非结构化数据,这种数据和传统SQL数据相比有非常大的不同,它不能直接存进任何SQL 数据库中,绝大多数时候是要存在一个文件系统或者对象存储中。

图片

除了存储方式的不同,相比与传统的SQL数据(结构化数据),非结构化数据的量级也是非常巨大的,举个最简单的例子,比如我们现在用手机拍照,一张图片5MB的大小在SQL 数据库里有可能是对应上千行甚至上万行的数据,面对这种不断产生且大规模增长的数据,怎么去重新思考底层的架构设计,怎么去重新设计软件,能帮助管理好这样的数据,让这些数据变成可搜索就变得至关重要。

算法工程师会基于这些数据去做机器学习模型的推断和训练。进一步来说怎么把这些数据给用好,包括内外部的协作,数据的lineage(血缘),提高模型的可追溯性,从而让整个的全迭代pipeline(流程)可以很好的被管控起来,其实是一个巨大挑战,这也是格物钛的数据平台想要实现的目标。

权限控制

我们数据平台的核心是做一个分布式系统去存储管理数据,做权限控制,这么大规模的非结构化数据和他们对应的这种半结构化数据,比如说这些jara,这些标签都需要很好地被管理。更重要的一点是我们还有一套基于数据的版本管理系统,有点像git。

众所周知git是针对代码设计的,格物钛设计了一套专门针对于数据的版本管理系统,它包括了 git的一些基础的能力,比如说commits、branch和rebase等等,同时我们还有一套功能可以帮助算法团队进行可横向扩展的协作。一方面是方便数据的不断迭代,另一方面是帮助团队更好地协作。

MLOps工具链

我更愿意把格物钛的产品放在MLOps工具链去理解,大家看大厂以前宣传MLOps相关的概念,包括Google、Facebook和包括Google和Azure这些云厂商以前在讲MLOps的时候,其实更偏向于模型端,主要聚焦在模型训练到推断这一层。根据吴恩达最新的以数据为中心的AI这个定义来看,他们使用的是以模型为中心的调优策略。而我们认为MLOps应该是从数据诞生开始,就需要对数据进行很好的系统化的管理。

图片

格物钛工具的设计理念更偏向于吴恩达教授提出的以数据为中心的AI策略,从数据端出发帮助去管理数据,迭代数据,让数据质量变得越来越好,最终使模型性能变得越来越好。这个是我们在做的核心产品——数据平台SaaS TensorBay,它除了做数据的管理和协作以外,我们也希望把它的核心功能开放出来,给全球的AI开发者使用,它就可以变成一个公共的开放数据的托管平台。

图片

因此为了便于理解,我们会说自己在数据领域做GitHub类似的事情,GitHub是一个托管开源代码的平台,我们看到现在有越来越多的机构在做开放数据集,所以我们希望成为一个全球最大的托管公开数据的平台,让有公开数据的小伙伴们可以自由地在我们的平台上分发、托管、共享数据,并且和社区做互动。我们也希望 AI工程师可以有一个地方快速找到这些开放的数据去做一些预研学习,提高AI开发流程的效率。

分享到:
立即开始构建AI