
158
머신러닝 시스템 설계
절에서 다루지 않습니다. 일반적으로 앙상블을 사용하는 이유가 클래스 불균형은 아니기 때문
입니다. 앙상블 기법은
6
장에서 다룹니다.
4.4
데이터 증강 데이터 증강
데이터 증강은 훈련 데이터 양을 늘리는 데 사용하는 기법입니다. 전통적으로 이러한 기법은
의료 영상처럼 훈련 데이터가 제한된 작업에 사용하지만 지난 몇 년 사이 데이터가 많은 경우
에도 유용한 것으로 나타났습니다. 증강 데이터는 모델이 잡음과 적대적 공격
adversarial
attack
에
더 강건해지도록 합니다.
데이터 증강은 대다수 컴퓨터 비전 작업의 표준 단계가 됐으며 자연어 처리 (
NLP
) 작업에도
적용됩니다. 구체적인 기법은 데이터 포맷에 따라 크게 다릅니다. 이미지 조작은 텍스트 조작
과 다르기 때문이죠. 이 절에서는 데이터 증강의 세 가지 주요 유형을 다룹니다. 각각 단순 레
이블 보존 변환, ‘잡음 추가’를 뜻하는 교란, 데이터 합성입니다. 각 유형이 컴퓨터 비전과
NLP
에 사용되는 예를 함께 살펴봅니다.
4.4.1 4.4.1
단순 레이블 보존 변환단순 레이블 보존 변환
컴퓨터 비전에서 데이터 증강 기법이 어떻게 적용되는지 알아봅시다. 가장 간단하게는 레이블
을 유지한 채 이미지를 무작위로 수정하는 방법이 있습니다. 자르기, 뒤집기, 회전, 반전(가로
또는 세로로 ...