PyTorch - 数据集

  • 简述

    在本章中,我们将更多地关注 torchvision.datasets及其各种类型。PyTorch 包括以下数据集加载器 -
    • MNIST
    • COCO(字幕和检测)
    数据集包括下面给出的两种类型的函数中的大部分 -
    • Transform- 接收图像并返回标准内容的修改版本的函数。这些可以与变换组合在一起。
    • Target_transform- 一个接受目标并对其进行转换的函数。例如,接受标题字符串并返回世界索引的张量。
  • MNIST

    以下是 MNIST 数据集的示例代码 -
    
    dset.MNIST(root, train = TRUE, transform = NONE, 
    target_transform = None, download = FALSE)
    
    参数如下 -
    • root − 处理数据所在数据集的根目录。
    • train − True = 训练集,False = 测试集
    • download − True = 从互联网下载数据集并将其放入根目录。
  • COCO

    这需要安装 COCO API。以下示例用于演示使用 PyTorch 的数据集的 COCO 实现 -
    
    import torchvision.dataset as dset
    import torchvision.transforms as transforms
    cap = dset.CocoCaptions(root = ‘ dir where images are’, 
    annFile = ’json annotation file’,
    transform = transforms.ToTensor())
    print(‘Number of samples: ‘, len(cap))
    print(target)
    
    实现的输出如下 -
    
    Number of samples: 82783
    Image Size: (3L, 427L, 640L)