258
AI
를 위한 필수 수학
처는 원래
200
개의 모든 피처들의 선형 조합이지만 이는 정확히
다.
이제 개별 데이터 포인트에 대해 생각해보자. 데이터 행렬
X
의 데이터 포인트는
200
개의 피처
를 가지고 있다. 이는 이 데이터 포인트의 그래프를 그리기 위해
200
개의 축이 필요하다는 뜻
이다. 그러나 앞서 살펴본 두 개의 주성분만 사용하여 차원 축소를 하게 되면 이 데이터 포인
트들은 이제 두 개의 좌표만 갖게 되는데, 이는
과
의 해당 항이다. 따라서 데이터
셋의 세 번째 데이터 포인트의 새로운 좌표는
의 세 번째 항과
의 세 번째 항이다.
이제 데이터셋을
200
차원 공간에 표시하는 대신
2
차원 공간에서 쉽게 표시할 수 있다.
우리는 몇 개의 특이값 (그리고 주성분 )을 유지할지 선택할 수 있다. 유지하는 것이 많을수록
원본 데이터셋에 더 충실할 수 있지만 당연하게도 차원이 더 높아진다. 이 절단 결정 (특정 특
이값에서 절단해 최적의 임계값을 찾는 것 )은 계속해서 연구되는 주제이다. 일반적인 방법은
원하는 랭크를 미리 결정하거나 원본 데이터가 갖는 특정 양의 분산을 계속 유지하게 하는 것
이다. 또 다른 방법은 모든 특이값의 그래프를 그리고 해당 그래프에서 명백한 변화를 관찰하
여 그 위치에서 절단하는 것이다. 우리는 이를 통해 데이터가 필수적으로 갖고 있는 패턴과 노
이즈를 분리하고자 한다.
단순히 데이터를 중심화하는 것뿐만 아니라 표준화하는 것도 중요하다. 표준화는