4!
Предварительная обработка данных
для создания качественных
обучающих наборов
Качество данных и объем содержащейся в них полезной информации являются ключе-
выми факторами, определяющими, насколько хорошо алгоритм машинного обучения
может обучаться. Поэтому крайне важно тщательно изучить набор данных и подверг-
нуть его предварительной обработке, прежде чем передать алгоритму машинного обу-
чения. Здесь мы обсудим основные методы предварительной обработки данных, кото-
рые помогут нам создавать хорошие модели машинного обучения.
В этой главе будут рассмотрены следующие темы:
! удаление данных из набора и подстановка отсутствующих значений;
! приведение категорийных данных к форме, подходящей для алгоритмов машинного
обучения;
!