Capítulo 6. Análise de componentes principais
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
A análise de componentes principais, ou PCA, é um dos pequenos milagres da aprendizagem automática. É uma técnica de redução da dimensionalidade que reduz o número de dimensões num conjunto de dados sem sacrificar uma quantidade proporcional de informação. Embora à primeira vista isso possa parecer pouco surpreendente, tem implicações profundas para os engenheiros e programadores de software que trabalham para criar modelos de previsão a partir dos seus dados.
E se eu te dissesse que podes pegar num conjunto de dados com 1000 colunas, utilizar a ACP para o reduzir a 100 colunas e reter 90% ou mais da informação do conjunto de dados original? Isso é relativamente comum, acredites ou não. E presta-se a uma variedade de utilizações práticas, incluindo:
-
Reduzir dados de grande dimensão para duas ou três dimensões, de modo a poderem ser representados e explorados
-
Reduzir o número de dimensões num conjunto de dados e depois restaurar o número original de dimensões, o que encontra aplicação na deteção de anomalias e na filtragem de ruído
-
Anonimizar conjuntos de dados para que possam ser partilhados com outros sem revelar a natureza ou o significado dos dados
E não é tudo. Um efeito secundário da aplicação de PCA a um conjunto de dados é que as caraterísticas menos importantes - colunas de dados que têm menos relevância ...