全球SKU种类最多的零售数据集 | RP2K数据集介绍及下载
作者:graviti
发布于 2/6/2021

一、RP2K数据集介绍

RP2K数据集收录了50万+张零售商品货架图片,商品种类超过2,000种,是目前零售类数据集中产品种类数量最多的数据集

数据集发布方:品览(Pinlan)

品览是AI物品识别专家,利用AI+IoT+Cloud科技帮助品牌商和零售商做人货场数据采集和运营,专注于打造世界一流 AI 商品识别平台在商品的生产、制造、流通到零售环节全链路收集商品数据。

发布年份:2020年

数据格式:图像

数据量:378.536K

数据集大小: 5.9GB

高速下载RP2K数据集:https://www.graviti.cn/open-datasets/RP2K

相关论文: RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification

计算机视觉正在加速行业中几乎每个领域的发展。在计算机视觉技术的帮助下,组织正在彻底改变机器以前的工作方式。在AI模型搭建时,为了建立强大的计算机视觉深度学习模型,获得更高的准确率,必须在训练阶段应用高质量的数据集。AI技术的落地实践与应用越来越方便,随着各种强大的数据集发布,机器学习模型训练无需再亲自采集数据,数据训练集唾手可得。拥有强大的零售商品识别能力的品览,在2020年正式发布RP2K零售数据集。

RP2K数据集是目前零售类数据集中产品种类数量TOP1,所收录的图片均来自于真实场景下的人工采集,针对每种商品,提供了十分详细的标注,致力于推进物品识别领域的学术研究,同时为AI物品识别从业者打造真实行业级试炼场。

不同于一般聚焦新产品的数据集,RP2K收录了超过50万张零售商品货架图片,商品种类超过2000种,该数据集是目前零售类数据集中产品种类数量TOP1,同时所有图片均来自于真实场景下的人工采集,针对每种商品,品览提供了十分详细的标注。RP2K致力于帮助物品识别领域进行学术研究,同时为AI物品识别从业者打造真实行业级试炼场。

商品识别的难点

在真实场景中,准确识别货架上零售产品仍然具有很高的挑战性。

(a)同一生产线中的产品可能具有不同的尺寸,并且它们通常外观高度相似但价格不同。图像尺寸无法反映产品的实际尺寸。

(b)制造商通常会为一条产品线制造多种口味,但是它们的外观在标签上只有非常细微的差别。

(c)执行人员在拍摄货架图片时,由于相机角度、拍摄环境不同,图片会产生变形,图像也可能被拉伸,甚至会出现曝光不足的现象。 从下面的样例图可以看到,RP2K针对以上可能的情况均有涉及,采用细粒度识别对商品进行甄别。


RP2K种类丰富,训练出来的准确性高适用范围广,更接近实用需求,而不是完全实验室场景下采集的数据集,因此更有说服力。

三、RP2K数据集亮点

1、就产品类别而言,毫无疑问,它是迄今为止全球规模最大的零售数据集,超过2000种SKU。

2、所有图像均在自然采光的实体零售店中手动采集,与实际应用场景匹配度极高,具有极佳的实践落地适应性。

3、品览为每种商品提供了丰富的注释,包括大小、形状和味道/气味。期待RP2K数据集可以为计算机视觉领域研究和零售行业AI落地赋能。

四、RP2K数据集高速下载

针对海外数据获取难、下载慢的问题,Graviti给出了一站式解决方案——将全球资源Host至国内镜像,无需VPN访问即可享受高速下载。

1、点击进入Graviti公开数据集-RP2K数据集主页

2、点击「获取数据集」,将RP2K数据集加入我的公开数据集

3、系统自动跳转到GAS控制台-TensorBay-公开数据集后,点击进入「RP2K数据集」管理页面

4、下载RP2K数据集

五、RP2K数据集实时在线可视化

使用Graviti可视化插件,实现在线可视化数据标注分布,所见即所得!

1、停留在刚才的TensorBay-GAS控制台,点击「数据详情」-「数据可视化」,可查看RP2K的原数据

2、进入「标注详情」页,点击「详情」-「可视化」,查看标注数据:数据标注、标签分布一览无余

3、查看标签分布统计列表、柱状图及饼图

六、RP2K数据集的在线使用与版本管理

对于部分Graviti提供的标准格式的公开数据集,支持Fork公开数据集的功能。用户可将公开数据集获取至【我的数据集】,在线修改、使用数据;并进行版本管理,可追溯任何历史版本,将任一版本设置为当前版本;还支持合并数据集。

具体步骤如下:

1、在TensorBay-GAS控制台-RP2K数据集主页,点击「Fork」获取数据集

2、前往「我的数据集」,点击进入「RP2K」数据集主页

3、进入「数据集详情」页,在Draft(草稿)模式下,可选择上传数据、发布数据集等基本功能,并享受版本管理、在线可视化、数据协同等服务,还支持通过开发者工具快速集成pipeline、云端迁移并使用数据

分享到:
立即开始构建AI