
24
로우코드 AI
NOTE
정형 데이터도 스트리밍할 수 있습니다. 정형 데이터와 비정형 데이터는 데이터 유형의 속성에
따라 나뉩니다. 반면 스트리밍과 배치 처리는 지연 시간에 관한 속성이죠. 데이터 유형과 속성에 관한 자
세한 내용은
2
장에서 다룹니다.
1.2.3
데이터 전처리
데이터 정리를 수행하려면 누락된 값, 중복, 이상치, 서식 문제와 사람의 실수로 발생한 일관성
없는 데이터를 처리해야 합니다. 실제 데이터는 다듬어지지 않고 복잡하며, 다양한 가정이 섞
여 있습니다. 가령 데이터가 정규 분포를 따른다고 가정할 수 있습니다. 정규 분포란 데이터가
왜곡 없이 대칭적으로 분포하고 대부분의 값이 중앙에 모여 있으며, 중앙(평균)에서 멀어질수
록 값의 빈도가 감소한다는 의미입니다.
캘리포니아 사막의 도시 팜스프링스
Palm
Springs
에서
8
월에 처음으로 우산 판매량이 증가했다는
보고가 있었다고 가정해 보겠습니다. 데이터가 정상 분포를 따른다고 봐야 할까요? 아니면 이
상치로 간주해야 할까요?
8
월의 우산 판매량 예측 결과가 왜곡될 수 있을까요? 만약 데이터가
정규 분포를 따르지 않는다면, 모든 레코드를 [
0
,
1
]이나 [-
1
,
1
] 범위로 그룹화하여 정규화해야
합니다. 데이터를 정규화하면
ML
모델을 더 쉽고 빠르게 학습시킬 수 있습니다. 정규화는
7
장
에서 ...