ICML Expo Talk:格物钛如何解决开放数据的行业痛点
作者:Graviti
发布于 7/30/2021

第三十八届国际机器学习大会(ICML)于2021年​​7月18日正式召开。一年一度的ICML汇聚了众多高水平的学者、工业研究人员、企业家以及工程师,共同分享AI等领域的前沿资讯。

格物钛作为今年第三十八届国际机器学习大会(ICML)的主办人之一,有幸参与ICML Expo分享大会,与机器学习领域内的研究者们共同探讨开放数据的未来。

在本次ICML 2021 Expo上,格物钛创始人兼CEO崔运凯从当前开放数据的一些痛点角度出发,分享了格物钛对于公开数据集的思考以及解决方案。

以下是崔运凯在ICML Expo 上分享的有关“格物钛如何解决开放数据行业痛点”:

基于以上的一系列痛点,我们开发了格物钛公开数据集平台。

For Open Dataset publishers

如果你是一个开源数据的发布者并且关心如何更好的托管你的数据,我们的平台可以帮助你吸引更多的用户以及更好地与你的社区互动。通过使用格物钛公开数据集平台,你可以免费并且灵活地托管你的公开数据集,只需要动动鼠标并填好一些类似数据集名称、别名以及数据集描述,你就可以上传并将你的数据集开源。

为了帮助用户获得更好的使用体验,我们也提供了markdown功能来填写这些信息。如果你有上传非常复杂数据集的需求,你也可以选择使用我们的CLI、SDK以及其他的开发者工具。只需要短短的几个步骤,你就可以上传并把你的数据集和全世界的开发者进行分享。

我们的平台也专门针对吸引更多的用户进行了优化:Graviti Pharos可视化插件。当你按照我们的要求上传了数据集后,你就可以通过Pharos插件来把你的复杂数据集给可视化。即使是多传感器的融合数据集,也能用Pharos给可视化,这样用户就可以通过切换视角以及其他更多的操作来更好的与这些数据进行互动,由此获得更多有价值的信息。

此外,我们的平台也做了搜素引擎的优化。当你上传了一个数据集后,第二天别人就能在Google上搜索到你的数据集,这样用户个人就不需要再做SEO了。此外,通过使用我们的论坛功能,你就可以更加高效、直接地和你的社区成员进行互动。同时,基于这样的论坛,社区成员也能更好的互帮互助,解决其他人遇到的问题。任何人都能发起一个讨论帖子,而且讨论帖中的消息也被我们做了优化,可以被浏览器给检索到。

For Open Dataset Users

格物钛公开数据集平台不仅能帮助开源数据发布者,同时也能帮助开源数据的使用者。在我们的平台上,用户可以高效搜索具有某类特征的数据集;我们也提供全面、详细的数据使用协议,帮助用户明确使用和引用该数据的注意事项。我们还支持一些像数据筛选以及合并多个数据集等进阶功能。

如果你去访问graviti.com并点击公开数据集,你可以看到我们的公开数据集搜索引擎。你不仅可以通过数据集名字进行搜索,你还可以搜索数据集的描述。此外,你也可以通过数据集种类进行筛选,甚至是基于标注格式和使用场景。你也可以通过数据集的热度和创建时间进行排序。这一系列的优化都可以帮助开源数据使用者更好的找到心仪的数据集。

当你选择好了想使用的数据集,你可以在数据集详情页的右边看到更多例如元数据、数据集协议、版权和标注商的信息。最重要的是协议信息,在我们的平台上,用户可以清晰地知道使用该数据集能做什么、不能做什么。在左边,我们可以看到数据集的简介以及数据集内的数据本体。同时,你也可以在下载、使用数据集之前,通过使用格物钛Pharos插件与数据集互动。

有时候我们可能只需要用数据集的某一部分或者是将多个数据集的数据进行合并来创造一个新的数据集去使数据集内的标签分布变得更加均衡,当你fork了数据集后,你就可以在我们的平台进行操作。当你访问我们的数据管理页面,你可以对数据进行一些高阶筛选,例如通过标注类型、数据种类和属性进行筛选。

在未来,我们也将开发一系列新功能,使用户能够基于模型训练后产生的新特征进行数据筛选。你也可以通过AND或者是OR逻辑来进行筛选。在添加筛选条件后,用户可以把筛选后的数据集作为一个新数据集来使用。合并数据集的操作也是类似的:你可以点击右边的合并按钮,这样的话,拥有相似数据和标签的不同数据集就能被合并成一个新的数据集。这样,用户就能用这些标签分布更均匀的新数据集来训练预测更准确的机器学习模型。

不管你是一个数据发布者或是数据使用者,我们都鼓励你去我们的官网(graviti.cn)试一试我们的产品。

分享到:
立即开始构建AI