1. Pascal VOC
21个类,1464张用于训练,1449张用于验证,测试集有1456张图片
1 |
|
2. MicroSoft COCO
118287张训练图片,5000张验证图片,以及超过40670张测试图片
1 |
|
除了分割外,还有其他的场景数据集
3. KITTI
训练集:200,测试集:200
4. cityscapes 街景数据集
Cityscapes包含50个欧洲城市不同场景、不同背景、不同季节的街景的33类标注物体,包括:'unlabeled'=0 , 'ego vehicle'=1 , 'rectification border'=2 , 'out of roi'= 3 , 'static'=4 , 'dynamic'=5 , 'ground'=6 ,'road'=7 ,'sidewalk'=8 ,parking'=9 ,'rail track'=10 ,'building'=11 ,'wall'=12 ,'fence'=13 , 'guard rail'=14 ,'bridge'=15 ,'tunnel'=16 ,'pole'=17 ,'polegroup'=18 , 'traffic light'=19 ,'traffic sign'=20 , 'vegetation'=21 , 'terrain'=22 ,'sky'=23 , 'person'=24 , 'rider'=25 , 'car'=26 ,'truck'=27 , 'bus'=28 ,'caravan'=29 ,'trailer'=30 ,'train'=31 ,'motorcycle'=32 , 'bicycle'=33
,但是在这33个类中,评估时只用到了19个类别,因此训练时将33个类映射为19个类,评估时需要将19个类又映射回33个类上传评估服务器。这个数据需要注册账号才能下载。Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像,用PASCAL VOC标准的 intersection-over-union (IoU)得分来对算法性能进行评价。 5000张精细标注的图片分为训练集2975张图片,验证集有500张图片,而测试集有1525张图片,测试集不对外公布,需要将预测结果上传到评估服务器才能计算mIoU值。
5. ADE20K
包含151个类别(包括背景),包括各种物体(比如人、汽车等)、场景(天空、路面等)
训练集由20210张场景图片组成,验证集由2000张图片构成,测试集有3352张图片组成。
1 |
|
6. A2D
来源:youtube上面的3782个视频,actor-action数据集(物体<->行为)
actor包括adult, baby, bird, cat and dog, as well as rigid ones, such as ball and car
8个actions: climbing, crawling, eating, flying, jumping, rolling, running, and walking
去除一些不可能的,共43个pair。
7. DAVIS
算法竞赛数据集,从2016开始,每年都有举办,2019年已经开始DAVIS2019。
DAVIS2016提供50个高质量,全高清的视频序列组,包含有多个视频目标分割挑战,如遮挡,运动模糊和外观变化。每一个视频都是稠密标注,像素级别的精度和逐帧的真值分割,构成包括50个序列总共3455标注帧,视频帧率为24fps,1080p分辨率。
DAVIS2017中又加了部分数据集。
训练集:90个小视频,给了每一帧的原图和分割图
测试集:30个小视频,给了每一帧的原图,和第一帧的分割图
比赛测试集:30个小视频,给了每一帧的原图,和第一帧的分割图
共有78个类(如下所示),每一个视频里有若干个类的物体,每个类可能有多个个体。每个视频的帧数不固定,短的30多帧,长的90多帧。
1 |
|
DAVIS2019挑战赛分为3个主题,弱监督、交互、无监督,CVPR2019的workshop,5月24日截止。
无监督 -> coming soon
8. YouTube-VOS
共有4,453个视频组成,其中训练集(3471),验证集(474)和测试集(508),94个类