
47
1
장
MLOps 세상으로 초대
1.4.3 1.4.3
DataOpsDataOps
와 데이터 엔지니어링와 데이터 엔지니어링
지금까지 머신러닝 욕구 단계에서 가장 아래층에 해당하는
DevOps
에 대해 살펴보았다. 다음
단계는 데이터의 흐름을 자동화하는 것이다. 데이터의 흐름을 자동화하는 일이 머신러닝 엔지
니어링을 위해 반드시 필요한 이유가 무엇일지 생각해보자. 예를 들어 거대한 도시의 상수원이
도시 전체에 딱 하나밖에 없다면 어떻게 될까? 물이 필요할 때마다 물을 길어 와야 하는 번거
로움 때문에 일상생활이 순탄치 않을 것이다. 평소 당연하게 누려오던 온수 샤워, 식기세척기
사용 등을 더 이상 편하게 사용할 수 없다. 비슷한 이치로, 필자는 데이터의 흐름이 자동화되지
않은 조직은 안정적인
MLOps
를 수행할 수 없다고 생각한다.
DataOps
를 수행하기 위해 다양한 상용 도구가 많이 출시되기 시작했다. 에어비앤비가 개발
한 데이터 처리 워크플로 예약, 관리, 모니터링 도구 아파치 에어플로
Apache
AirFlow
21
를 오픈 소
스로 공개했다.
AWS
는
AWS
데이터 파이프라인과
AWS
글루
Glue
를 제공하고 있다.
AWS
글루는 데이터 소스의 스키마를 감지한 뒤 데이터 소스의 메타데이터를 저장하고, 서버리스
ETL
Extract
,
Load
,
Transform ...