Python 中的 MNIST 数据集 - 基本导入和绘图

在本教程中,我们将学习什么是MNIST数据集,如何在Python中导入它,以及如何使用matplotlib(/community/tutorials/python-matplotlib)构图它。

MNIST数据集是什么?

MNIST 集是一大集合 手写数字。 这是图像处理领域非常流行的数据集,通常用于基准机器学习算法。

MNIST 是改编国家标准与技术研究所数据库的简称。

MNIST 包含 70,000 张, 28 x 28 张,从 0 到 9 个手写数字的图像。

数据集已经分为培训和测试集,我们将在教程中稍后看到这一点。

有关MNIST的更多信息,请参阅其 维基百科页面

让我们先将数据集加载到我们的Python笔记本中。

来自Keras的MNIST加载

我们首先需要从 Keras模块中导入MNIST数据集。

我们可以使用以下代码行:

1from keras.datasets import mnist

现在我们将将训练和测试集加载到单独的变量中。

1(train_X, train_y), (test_X, test_y) = mnist.load_data()

让我们来找出培训和测试集中有多少图像,换句话说,让我们来找出这个数据集的分割比。

有关分割比的更多信息,请参阅本教程(如何将数据分割成训练和测试集)( / 社区 / 教程 / 分割数据 - 进入训练 - 测试集)

要找到分割比例,我们将打印所有矢量的形状。

1print('X_train: ' + str(train_X.shape))
2print('Y_train: ' + str(train_y.shape))
3print('X_test:  '  + str(test_X.shape))
4print('Y_test:  '  + str(test_y.shape))

输出:

1X_train: (60000, 28, 28)
2Y_train: (60000,)
3X_test:  (10000, 28, 28)
4Y_test:  (10000,)

我们可以看到训练集中有 **60k 图像,测试集中有 **10k 图像。

我们的训练矢量尺寸是 (60000, 28, 28),这是因为有 60,000 灰度图像具有尺寸 28X28.

加载MNIST数据集的完整代码

以下是本节的完整代码:

 1from keras.datasets import mnist
 2
 3#loading the dataset
 4(train_X, train_y), (test_X, test_y) = mnist.load_data()
 5
 6#printing the shapes of the vectors 
 7print('X_train: ' + str(train_X.shape))
 8print('Y_train: ' + str(train_y.shape))
 9print('X_test:  '  + str(test_X.shape))
10print('Y_test:  '  + str(test_y.shape))

让我们学习如何构建这个数据集。

使用 matplotlib 编写 MNIST 数据集

它总是是一个好主意,绘制你正在工作的数据集,它会给你一个很好的想法,你正在处理的数据类型。

作为一个负责任的数据科学家,您应该有责任始终将数据集作为零步骤。

要编写数据集,请使用以下代码:

1from matplotlib import pyplot
2for i in range(9):  
3pyplot.subplot(330 + 1 + i)
4pyplot.imshow(train_X[i], cmap=pyplot.get_cmap('gray'))
5pyplot.show()

输出:

Mnist Dataset

这就是我们的数据的样子!

想象一下像这些一样的70,000张图像,这就是数据集内部的内容。

手写识别的问题不管多么微不足道,现在已经过时了,需要一个更具挑战性的MNSIT数据集版本来替代它。

** MNIST数据集有更具挑战性的版本吗?**

是的,是的。 时尚MNIST数据集。

时尚MNIST数据集

时尚的MNIST数据集是更具挑战性的替代旧的MNIST数据集。

该数据集包含70,000张(28)×28像素的灰色图像,包括10种类型的服装,如鞋子、T恤、裙子等。

要了解如何导入和构图时尚MNIST数据集,请阅读本教程( / 社区 / 教程 / 时尚-mnist)。

结论

本教程是关于在Python中导入和绘制MNIST数据集。我们还讨论了更具挑战性的更换这个数据集,时尚MNIST集。

Published At
Categories with 技术
comments powered by Disqus