
42
개발자를 위한 필수 수학 워크북
연습 문제
7
장
0011
6
장에서 작업한 고용 유지 데이터(
https
://
tinyurl
.
com
/
y6r7qjrp
)에 신경망
을 적용하세요. 신경망을 구축한 뒤 이 데이터셋에서 예측하고, 정확도 및 오차
행렬을 사용해 성능을 평가해보세요. 이 문제에 적합한 모델일까요? 아니면 그
렇지 않을까요? 그 이유는 무엇일까요?
신경망을 처음부터 구축하는 것도 좋지만, 시간을 절약하기 위해 사이킷런, 파
이토치 또는 다른 딥러닝 라이브러리를 사용하는 것도 고려해보세요.
여러 가지 시도를 해볼 수 있습니다. 은닉 층
,
활성화 함수
,
테스트 데이터셋의 크기를 바
꿔 시도해보세요. 필자는
3
개의 노드와
ReLU
활성화 함수를 사용하는 은닉 층 하나를 사
용했는데
,
테스트 데이터셋에서 좋은 예측을 얻지 못했습니다. 오차 행렬과 정확도가 좋지
않았고 다른 설정 변경도 마찬가지로 좋지 않았습니다.
신경망이 실패하는 이유는 ① 데이터를 많이 소모하는 신경망에 비해 테스트 데이터셋이
너무 작고
,
② 이러한 유형의 문제에서는 로지스틱 회귀와 같은 더 간단하고 효과적인 모
델이 있기 때문일 수 있습니다. 그렇다고 해서 효과가 있는 설정을 찾을 수 없다는 말은 아
니지만
,
좋은 결과를 얻도록
p
해킹함으로써 적은 양의 훈련 및 테스트 데이터에 과대적합
되는