
88 |
第
3
章
将训练集和验证集的预测合在一起形成一个数据集,我们将使用该数据集来
为这一任务构建深度学习模型,详见第
4
章。
Snorkel_predictions = np.concatenate((preds_train_label,preds_valid_label))
data["Snorkel_labels"] = Snorkel_predictions
data.to_csv("data_nlp.csv")
标记图像数据集:识别室内与室外图像
在本节中,我们将阐述如何将收集的室内和室外图像放在一起形成一个图像
数据集,并使用
Snorkel
与其他计算机视觉工具和预测器,以编程方式识别图
像,将图像分类为室内或室外。
AlexNet
的概念和
GPU
出现后,计算机视觉领域取得了巨大的进步。
ImageNet
图像数据集的存在是推动该领域创新的因素之一,它由
1400
万张
手工标记的图像组成,这些图像分为
22000
个不同的类别。
注
7
这些大规模的
标记数据对
AlexNet
的创建和图像分类任务的突破性进展至关重要。
AlexNet
概念出现后,
ZFNet
、
VGG
、
GoogLeNet
、
ResNet
、
SqueezeNet
、
DenseNet
、
Visual Transformers
等概念开始涌现。
注
8
近年来,图像分类的误差率已经从
30%
降至接近
3.5%
,而人工分类的误差率为
5%
。
注
9
斯坦福视觉实验室的
Fei-Fei Li
于
2008
年发起了一个项目:构建和标记
ImageNet
规模的数据集,它是一项十分重要的,并且需要多方努力的项目。 ...