Capítulo 12. Clasificación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La clasificación puede ser la aplicación más conocida de los métodos bayesianos, que se hicieron famosos en los años 90 como base de la primera generación de filtros de spam.

En este capítulo, demostraré la clasificación bayesiana utilizando datos recogidos y puestos a disposición por la Dra. Kristen Gorman en la Estación de Investigación Ecológica a Largo Plazo Palmer de la Antártida (véase Gorman, Williams y Fraser, "Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis)", marzo de 2014). Utilizaremos estos datos para clasificar a los pingüinos por especies.

Datos del Pingüino

Utilizaré pandas para cargar los datos en un DataFrame:

import pandas as pd

df = pd.read_csv('penguins_raw.csv')
df.shape
(344, 17)

El conjunto de datos contiene una fila para cada pingüino y una columna para cada variable.

En el conjunto de datos están representadas tres especies de pingüinos: Adelia, Barbijo y Papúa.

Las medidas que utilizaremos son

  • Masa corporal en gramos (g).

  • Longitud de la aleta en milímetros (mm).

  • Longitud del culmen en milímetros.

  • Profundidad del culmen en milímetros.

Si no estás familiarizado con la palabra "culmen", se refiere almargen superior del pico.

Estas mediciones serán más útiles para la clasificación si hay diferencias sustanciales entre las especies y ...

Get Piensa en Bayes, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.