217
5
장
선형 회귀
모델이 변수로 넘쳐나 설명력을 잃기 시작하면 불안정해집니다. 이때부터 머신러닝 관행에 따
라 모델을 블랙박스로 취급하기 시작합니다. 통계적 우려는 사라지지 않으며, 변수를 추가할수
록 데이터는 점점 더 희소해진다는 사실을 기억하세요. 하지만 한발 물러서서 상관 행렬로 각
변수 간의 관계를 분석하고 어떻게 상호 작용하는지 이해한다면 생산적인 머신러닝 모델을 만
드는 데 도움이 될 것입니다.
5.13
마치며
이 장에서는 많은 내용을 소개했습니다. 선형 회귀에 대한 기본적인 이해와 검증을 위해 훈련/
테스트 분할을 사용하는 것 이상을 다뤘습니다. 메스(통계 )와 전기톱(머신러닝) 중 어느 것이
주어진 문제에 가장 적합한지 판단할 수 있도록 두 가지 방법을 모두 제시했습니다. 선형 회귀
에만 사용할 수 있는 많은 지표와 분석 방법이 있으며, 선형 회귀가 신뢰할 만한 예측을 만드는
지 이해하기 위해 그중 몇 가지 방법을 소개했습니다. 대략적인 근삿값으로 회귀를 수행하거나
통계 도구를 사용해 데이터를 세심하게 분석하고 조합할 수 있습니다. 어떤 접근 방식을 사용
할지는 상황에 따라 다릅니다. 파이썬에서 사용할 수 있는 통계 도구에 대해 자세히 알고 싶다
면
statsmodel
라이브러리 (
https
://
oreil
.
ly
/
8oEHo
)를 참고하세요.
로지스틱 회귀를 다루는
6
장에서
r
2
과 통계적 유의성에 대해 다시 살펴봅니다. 이번 장을 통해
데이터를 의미 있게 분석하는 방법을 배우고, 이런 투자가 성공적인 프로젝트에서 차이를 만들 ...