November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

크리스 모라디(Chris Moradi)
데이터 과학이 다루는 영역이 넓어짐에 따라 준비된 데이터를 사용하는 데는 능숙하지만, 믿을 만한 방식으로 데이터를 준비하는 데 필요한 기술은 부족한 실무자가 생겨나고 있습니다. 데이터에 대한 책임은 여러 역할과 팀으로 나눌 수도 있지만, 데이터 과학자가 발상부터 배포에 이르는 프로세스 전반을 자신의 것으로 여기는 풀스택 접근 방식을 취하면 생산성을 크게 향상시킬 수 있습니다.
자체 ETL을 구축하는 데이터 과학자든, 데이터 과학자의 ETL 구축 과정을 돕는 데이터 엔지니어든 간에 데이터 파이프라인을 알기 쉽고, 디버그하기 편하고, 확장하기 좋게 만들면 자신과 팀원이 수행해야 하는 지원 업무의 부담을 줄일 수 있습니다. 이는 미래의 이터레이션과 혁신을 촉진할 것입니다.
ETL의 유지 보수를 쉽게 만드는 주된 방법은 소프트웨어 엔지니어링의 기본적인 모범 사례를 따르고, 프로세싱을 함께 조합하기 좋은 형태의 작고 이해하기 쉬운 작업 단위로 나누는 것입니다. 워크플로 엔진으로 조합하기 쉽다면 더 좋습니다. 작은 ETL 작업은 신규 기여자와 유지 보수자가 이해하기 쉬우며, 작업을 디버그하기 쉽고, 코드를 더 많이 재사용할 수 있습니다.
우리는 경험이 많든 적든 ...