November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

하이다르 하디(Haidar Hadi)
다음 질문들은 일종의 체크리스트로, 프로젝트 결과물을 제공하는 시기나 설계를 시작하는 시기를 추정하기 전에 확인할 것들을 담고 있습니다. 코드를 작성하기 전에 반드시 스스로에게 질문해봐야 할 사항들입니다.
¦ 질문 1: 데이터 파이프라인의 소스와 타깃, 사용자 등 접점은 무엇입니까? ¦
데이터 파이프라인이 활용하는 모든 데이터 소스를 확인하세요. 또한, 구성 및 색인이 들어 있는 시스템에 덧붙여서 파이프라인이 생산한 데이터 제품을 사용할 출력 위치 및 시스템을 모두 확인하세요.
¦ 질문 2: 어떤 정도까지 자세히 나눠야 합니까? ¦
주어진 데이터 소스에 대해, 샘플 데이터셋만 보고 데이터를 어느 정도 크기로 잘게 나누는지 가정하지 마세요. 주어진 데이터셋은 트랜잭션이나 회사, 혹은 트랜잭션과 회사의 조합, 혹은 정해진 수준의 세분화 단위 크기에 기반해 집계한 결과일 수 있습니다. 입력 데이터 소스와 출력 데이터 소스 모두에 대한 데이터 세분화 정도를 확인해야 합니다. 이를테면 다음과 같이 질문하세요.
• 데이터 객체가 트랜잭션 수준의 데이터를 나타내나요? 트랜잭션 수준이 월별이나 분기별, 연간 단위로 합산되나요? ...