November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

티안후이 마이클 리(Tianhui Michael Li) 박사
모든 과학 분야와 마찬가지로, 데이터 과학은 재현성reproducibility을 기반으로 합니다. 재현 가능한 프로젝트에서는 누구든(미래의 여러분까지 포함해서) 단순한 명령만 실행하면 결과물을 다시 생성할 수 있습니다. 그리고 이것은 분석 코드를 깃git과 같은 소스 관리 도구에 두어야 한다는 뜻입니다. 다른 한편으로는 기계가 읽을 수 있는 형식(pip의 requirements.txt, conda의 environment.yml 등)에 의존성 라이브러리 목록을 포함하는 등의 데브옵스 모범 사례를 따르는 것을 의미하기도 합니다. 한 단계 더 나아가서 도커파일Dockerfile을 사용할 수도 있습니다. 분석 코드를 설치하고 실행하는 데 필요한 명령도 포함시켜야 합니다. README.md 파일이나 Make 같은 작업 실행 도구에 실행할 내용을 명확하게 문서화하면 더 좋습니다.
재현성의 또 다른 중요한 요소는 일관성을 유지하기 위해 파이프라인에서 알고리즘 무작위성을 제거한다는 것입니다. 데이터가 더 큰 데이터셋의 일부분이거나 분석이 초기 무작위 조건에 의존한다면(다수의 인기 있는 방식처럼), 작업이 난수 생성기에 의존하게 됩니다. 이 때문에 ...