November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

톰 화이트(Tom White)
데이터 파이프라인을 구축할 때 이번 섹션의 지침을 따라서 데이터 엔지니어링을 소프트웨어 엔지니어링처럼 취급하면, 잘 짜여진 안정적이고 강력한 파이프라인을 작성할 수 있습니다.
¦ 파이프라인 종단 간 테스트를 구축하라 ¦
이 단계에서는 파이프라인이 수행하는 작업 자체에 공을 들이지 마세요. 알려진 입력을 제공하고, 간단한 변환을 수행하고, 출력이 예상과 같은지 테스트하는 등 인프라에 집중하는 게 좋습니다. Junit이나 pytest와 같은 표준적인 단위 테스트 프레임워크를 사용하세요.
¦ 적은 양의 대표 데이터를 사용하라 ¦
대표 데이터의 크기는 테스트를 몇 분만에 실행할 수 있을 만큼 적어야 합니다. 실제 (프로덕션) 시스템에서 가져온 데이터(단, 익명으로 처리된 것이어야 함)라면 가장 좋습니다.
¦ 이진 형식보다 텍스트 형식 데이터를 선호하라 ¦
데이터 파일을 비교할 수 있어야 테스트에 실패했을 때 일어나는 일을 빠르게 파악할 수 있습니다. 입력 및 예상 출력을 확인해서 버전 관리 시스템에 두면 시간이 지나면서 변경되는 내용을 추적할 수 있습니다. 파이프라인에서 이진binary 형식만 받아들이거나 생성한다면 파이프라인 자체에 텍스트 지원을 추가하거나 ...