图像分类数据集 - 经验案例与实践分享

首页 > 寒武纪开发者论坛>经验方案交流区>经验案例与实践分享 >正文

快速回复

图像分类数据集 tangnian2023-07-27 14:45:36 回复查看 经验交流

0 赞 0 收藏
分享到:

文章概述：图像分类任务是计算机视觉（Compute Vision，简称 CV）的一项基本任务，也是入门 CV 领域的基础和关键，本文主要介绍分类图像中一般训练和测试的数据集。

https://www.zhihu.com/question/53171680/answer/2938361085

1 MNIST

•纽约大学的Yann LeCun整理

•MNIST（Modified National Institute of Standards and Technology data ）是一个入门级的计算机视觉数据集

•只有12M左右，包含各种尺寸是28*28的手写数字图片，

•它有60000个训练样本集和10000个测试样本集。

•一共4个文件，训练集、训练集标签、测试集、测试集标签

文件名称大小内容

train-images-idx3-ubyte.gz9,681 kb55000张训练集，5000张验证集

train-labels-idx1-ubyte.gz29 kb训练集图片对应的标签

t10k-images-idx3-ubyte.gz1,611 kb10000张测试集

t10k-labels-idx1-ubyte.gz5 kb测试集图片对应的标签

数据集：http://yann.lecun.com/exdb/mnist/

2 CIFAR-10（Canada Institude For Advanced Research）

•CIFAR-10 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 制作而成

•一共包含10 个类别：飞机（ airplane ）、汽车（ automobile ）、鸟类（ bird ）、猫（ cat ）、鹿（ deer ）、狗（ dog ）、蛙类（ frog ）、马（ horse ）、船（ ship ）和卡车（ truck ）。

•图片的尺寸为 32×32

•数据集中一共有 50000 张训练图片和 10000 张测试图片。

•数据集发布网站：http://www.cs.toronto.edu/~kriz/cifar.html

3 CIFAR-100

这个数据集和cifar10类似，它有100个类，每个类包含600个图像，600个图像中有500个训练图像和100个测试图像。100类实际是由20个类(每个类又包含5个子类)构成(5*20=100)。

4 ImageNet【分类中最重要的数据集】

•李飞飞等教授于 2009 年发起，当时在 CVPR2009 上发表了一篇名为「ImageNet：A Large-Scale Hierarchical Image Data 」的论文，之后从 2010 至 2017 年举行了基于 ImageNet 数据集的比赛。

•ImageNet 中目前共有 14,197,122 张图像，总共分为 21,841 个类别（synsets）

•通常我们所说的 ImageNet 数据集其实是指 ISLVRC2012（lmageNet Large Scale VisualRecognition Challenge , ILSVRC 或称为 ImageNet 1K ）比赛用的子数据集，其中 train 有 1,281,167 张照片和标签，共 1000 类，大概每类 1300 张图片，val 有 50,000 张图像，每类 50 个数据，test 有 100,000 张图片，每类 100 个数据。

•平均图像分辨率为469x387像素

•很多的论文都使用了此数据集，跟其他模型比较时，可以直接引用结果；ImageNet的评价指标是固定的，大家都使用top1 、top5；可以直接看出你修改的模型结构到底有没有提高。

•相比CIFAR-10 , ImageNet 数据集图片数量更多，分辨率更高，含有的类别更多（高上干个图像类别），图片中含高更多的无关噪声和变化，因此识别难度比CIFAR-10 高得多。

•数据下载：http://image-net.org/

•有人提供百度链接如下：

•训练集：ILSVRC2012_img_train.tar.gz，提取码：yoos

•验证集：ILSVRC2012_img_val.tar.gz，提取码：yl8m；

•测试集：ILSVRC2012_img_test.tar.gz，提取码：jumt；

•任务 1&2 的 devkit：ILSVRC2012_devkit_t12.tar，提取码：dw6i；

•数据集形态：

imagenet

├── train

│ ├── n01440764

│ ├── n01443537

│ ├── ...

├── train.txt

├── val

│ ├── n01440764

│ ├── n01443537

│ ├── ...

└── val.txt #其中一条：val/n03623198/ILSVRC2012_val_00030341.JPEG 997

5 Caltech 101

•在2003年由lifeifei带头收集

•这个数据集包含了101类的图像，每类大约有40~800张图像，大部分是50张/类

•每张图像的大小大约是300x200

•下载地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/

6 Caltech 256

•Caltech 256数据集是加利福尼亚理工学院收集整理的数据集，该数据集选自google image数据集，并手工去除了不符合其类别的图片。在该数据集中，图片被分为256类，每个类别的图片超过80张。

•Caltech 256数据集是 caltech-101 数据集的改进版图片数据集，该数据集收集了 256 个类的 20607 张图片。有几处改进：

•类别数量增加一倍以上

•任何类别中图像的最小数量从 31 增加到 80

•避免因图像旋转造成的伪影

•引入了一个新的更大的杂波类别来测试背景拒绝。

•下载地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/

7 PASCAL VOC

PASCAL VOC挑战赛（The PASCAL Visual Classes ）是一个世界级的计算机视觉挑战赛,PASCAL全称：Pattern Analysis, Statical Modeling and Computational Learning，是一个由欧盟资助的网络组织。PASCAL VOC从2005年开始举办挑战赛，每年的内容都有所不同，从最开始的分类，到后面逐渐增加检测，分割，人体布局，动作识别（ Classification 、 Detection、 Segmentation、Human Layout、Action Classification）等内容

对于现在的研究者来说比较重要的两个年份的数据集是 PASCAL VOC 2007 与 PASCAL VOC 2012，这两个数据集频频在现在的一些检测或分割类的论文当中出现。期间变化：

•2005年：还只有4个类别： bicycles, cars, motorbikes, people. Train/validation/test共有图片1578 张，包含2209 个已标注的目标 s.

•2007年：在这一年PASCAL VOC初步建立成一个完善的数据集。类别扩充到20类，Train/validation/test共有9963张图片，包含24640 个已标注的目标 s。07年之前的数据集中test部分都是公布的，但是之后的都没有公布。

•2009年：从这一年开始，通过在前一年的数据集基础上增加新数据的方式来扩充数据集。比如09年的数据集是包含了08年的数据集的，也就是说08年的数据集是09年的一个子集，以后每年都是这样的扩充方式，直到2012年；09年之前虽然每年的数据集都在变大（08年比07年略少），但是每年的数据集都是不一样的，也就是说每年的数据集都是互斥的，没有重叠的图片。

•2012年：从09年到11年，数据量仍然通过不断增长，11年到12年，用于分类、检测和person layout 任务的数据量没有改变。主要是针对分割和动作识别，完善相应的数据子集以及标注信息。

数据采集

下载地址：http://host.robots.ox.ac.uk/pascal/VOC/

百度链接: https://pan.baidu.com/s/1_nzUGJHLu-w1OKzdpZ0wKQ?pwd=rcum 提取码: rcum

linux下载：

# Download the data.

cd $HOME/data

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar

# Extract the data.

tar -xvf VOCtrainval_11-May-2012.tar

tar -xvf VOCtrainval_06-Nov-2007.tar

tar -xvf VOCtest_06-Nov-2007.tar

８ FDDB 人脸数据

•FDDB(Face Detection Data Set and Benchmark)包含2845张图像，和5171个标注人脸：不同的图像分辨率，遮挡和姿态。

•下载链接为http://vis-www.cs.umass.edu/fddb/

9 LFW

•LFW(Labeled Faces in the Wild Home)无约束自然场景人脸识别数据集，该数据集由13000多张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成，每张人脸图片都有其唯一的姓名ID和序号加以区分。

•LFW数据集主要测试人脸识别的准确率，该数据库从中随机选择了6000对人脸组成了人脸辨识图片对，其中3000对属于同一个人2张人脸照片，3000对属于不同的人每人1张人脸照片。测试过程LFW给出一对照片，询问测试中的系统两张照片是不是同一个人，系统给出“是”或“否”的答案。通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。

•下载链接为http://vis-www.cs.umass.edu/lfw/index.html#download

10 水仙花数

•数据收集基于数据flicr、google images、yandex images。此数据集可用于从照片中识别植物。

•该数据集包含 4242 张花卉图像。数据图片会分为五类：daisy（雏菊），dandelion（蒲公英），rose（玫瑰），sunflower（向日葵），tulip（郁金香）。每个种类大约有800张照片。

•照片分辨率不高，约为 320x240 像素。照片不会缩小到单一尺寸，它们有不同的比例。

•下载地址：https://www.cvmart.net/dataSets/detail/526 或 http://download.tensorflow.org/example_images/flower_photos.tgz