Capítulo 4. Tratamiento de datos numéricos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
4.0 Introducción
Datos cuantitativos son la medida de algo, ya sea el tamaño de una clase, las ventas mensuales o los resultados de los estudiantes. La forma natural de representar estas cantidades es numéricamente (por ejemplo, 29 alumnos, 529.392 $ en ventas). En este capítulo, cubriremos numerosas estrategias para transformar datos numéricos brutos en características creadas específicamente para algoritmos de aprendizaje automático.
4.1 Reescalar una característica
Problema
Necesitas reescalar los valores de una característica numérica para que estén entre dos valores.
Solución
Utiliza MinMaxScaler de scikit-learn para reescalar una matriz de características:
# Load librariesimportnumpyasnpfromsklearnimportpreprocessing# Create featurefeature=np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])# Create scalerminmax_scale=preprocessing.MinMaxScaler(feature_range=(0,1))# Scale featurescaled_feature=minmax_scale.fit_transform(feature)# Show featurescaled_feature
array([[ 0. ],
[ 0.28571429],
[ 0.35714286],
[ 0.42857143],
[ 1. ]])
Debate
El reescalado es una tarea de preprocesamiento habitual en el aprendizaje automático. Muchos de los algoritmos que se describen más adelante en este libro supondrán que todas las características están en la misma escala, normalmente de 0 a 1 o de -1 a 1. ...