AWS 기반 데이터 과학

Book description

이 책은 AWS에서 제공하는 AI와 ML 기능을 활용하여 데이터 과학 프로젝트를 구축하고 배포하는 방법을 다룬 실전 지침서다. 아마존 EC2, 아마존 EBS, 아마존 다이나모DB, AWS 람다, AWS IAM을 비롯한 다양한 AWS 서비스를 사용하여 데이터 수집 및 처리, 머신러닝, 보안을 다룬다. 또한 AWS에서 데이터 과학 프로젝트의 비용을 절감하고 성능을 향상시키는 팁도 소개한다. 이 책을 따라 모든 학습을 마치고 나면 머신러닝 모델의 성능을 향상하기 위한 기술과 방법을 이해하고, AWS를 효과적으로 활용하여 머신러닝 모델을 구축하고 배포할 수 있게 될 것이다.

Table of contents

  1. AWS 기반 데이터 과학 소개
    1. 1.1 클라우드 컴퓨팅의 장점
      1. 1.1.1 민첩성
      2. 1.1.2 비용 절감
      3. 1.1.3 탄력성
      4. 1.1.4 더 빠른 혁신
      5. 1.1.5 짧은 시간 안에 글로벌 배포
      6. 1.1.6 프로토타입에서 프로덕션으로의 전환
    2. 1.2 데이터 과학 파이프라인 및 워크플로우
      1. 1.2.1 아마존 세이지메이커 파이프라인
      2. 1.2.2 AWS 스텝 함수 데이터 과학 SDK
      3. 1.2.3 큐브플로우 파이프라인
      4. 1.2.4 AWS에서 아파치 에어플로우를 위한 관리형 워크플로우
      5. 1.2.5 MLflow
      6. 1.2.6 텐서플로우 익스텐디드
      7. 1.2.7 휴먼인더루프 워크플로우
    3. 1.3 MLOps 모범 사례
      1. 1.3.1 운영 효율성
      2. 1.3.2 보안
      3. 1.3.3 신뢰성
      4. 1.3.4 성능 효율성
      5. 1.3.5 비용 최적화
    4. 1.4 아마존 세이지메이커를 사용한 아마존 AI와 AutoML
      1. 1.4.1 아마존 AI 서비스
      2. 1.4.2 세이지메이커 오토파일럿을 사용한 AutoML
    5. 1.5 AWS에서 데이터 주입, 탐색 및 준비
      1. 1.5.1 ‌아마존 S3와 AWS 레이크 포메이션을 활용하는 데이터 주입과 데이터 레이크
      2. 1.5.2 아마존 아테나, 아마존 레드시프트, 아마존 퀵사이트로 데이터 분석하기
      3. 1.5.3 AWS 디큐와 세이지메이커 프로세싱으로 데이터 품질 평가하기
      4. 1.5.4 세이지메이커 그라운드 트루스로 훈련 데이터에 레이블 지정하기
      5. 1.5.5 ‌AWS 글루 데이터브루, 세이지메이커 데이터 랭글러, 세이지메이커 프로세싱 서비스로 데이터 변환하기
    6. 1.6 아마존 세이지메이커를 사용한 모델 훈련 및 튜닝
      1. 1.6.1 세이지메이커 트레이닝 및 익스페리먼츠로 모델 훈련시키기
      2. 1.6.2 빌트인 알고리즘
      3. 1.6.3 자체 스크립트 작성하기(스크립트 모드)
      4. 1.6.4 자체 컨테이너 작성하기
      5. 1.6.5 세이지메이커 점프스타트로 사전 빌드된 솔루션과 사전 훈련된 모델 사용하기
      6. 1.6.6 세이지메이커 하이퍼파라미터 튜닝으로 모델 튜닝 및 검증하기
    7. 1.7 아마존 세이지메이커와 AWS 람다 함수를 사용한 모델 배포
      1. 1.7.1 세이지메이커 엔드포인트
      2. 1.7.2 세이지메이커 일괄 변환
      3. 1.7.3 AWS 람다로 서버리스 모델 배포하기
    8. 1.8 AWS 데이터 스트리밍 분석 및 머신러닝
      1. 1.8.1 아마존 키네시스 스트리밍
      2. 1.8.2 아파치 카프카용 아마존 관리형 스트리밍
      3. 1.8.3 스트리밍 예측 및 이상 감지
    9. 1.9 AWS 인프라 및 맞춤형 하드웨어
      1. 1.9.1 세이지메이커 컴퓨트 인스턴스
      2. 1.9.2 GPU 및 아마존 맞춤형 컴퓨트 하드웨어
      3. 1.9.3 GPU 최적화 네트워킹 및 맞춤형 하드웨어
      4. 1.9.4 대규모 모델 훈련에 최적화된 스토리지 옵션
    10. 1.10 태그, 예산, 알림으로 비용 절감하기
    11. 1.11 마치며
  2. 데이터 과학의 모범 사례
    1. 2.1 모든 산업에 걸친 혁신
    2. 2.2 개인별 상품 추천 시스템
      1. 2.2.1 아마존 퍼스널라이즈로 상품 추천하기
      2. 2.2.2 아마존 세이지메이커와 텐서플로우로 추천 시스템 생성하기
      3. 2.2.3 아마존 세이지메이커와 아파치 스파크로 추천 시스템 생성하기
    3. 2.3 아마존 레코그니션으로 부적절한 동영상 감지
    4. 2.4 수요 예측
      1. 2.4.1 아마존 포캐스트로 에너지 소비 예측하기
      2. 2.4.2 아마존 포캐스트로 아마존 EC2 인스턴스의 수요 예측하기
    5. 2.5 아마존 프로드 디텍터를 사용한 가짜 계정 식별
    6. 2.6 아마존 메이시를 사용한 정보 유출 탐지 활성화
    7. 2.7 대화형 디바이스와 음성 어시스턴트
      1. 2.7.1 아마존 렉스로 음성 인식하기
      2. 2.7.2 아마존 폴리로 텍스트-음성 변환하기
      3. 2.7.3 아마존 트랜스크라이브로 음성-텍스트 변환하기
    8. 2.8 텍스트 분석 및 자연어 처리
      1. 2.8.1 아마존 트랜슬레이트로 언어 번역하기
      2. 2.8.2 아마존 컴프리헨드로 고객 지원서 내용 분류하기
      3. 2.8.3 아마존 텍스트랙트와 컴프리헨드로 이력서의 상세 사항 추출하기
    9. 2.9 인지 검색과 자연어 이해하기
    10. 2.10 지능형 고객 지원 센터
    11. 2.11 산업용 AI 서비스와 예측 정비
    12. 2.12 AWS IoT와 아마존 세이지메이커를 사용한 홈 자동화
    13. 2.13 의료 문서에서 의료 정보 추출하기
    14. 2.14 자체 최적화 및 지능형 클라우드 인프라
      1. 2.14.1 아마존 EC2에 대한 예측 자동 확장성
      2. 2.14.2 데이터 스트림에 대한 이상 탐지
    15. 2.15 인지 및 예측의 비즈니스 인텔리전스
      1. 2.15.1 아마존 퀵사이트에서 자연어로 쿼리하기
      2. 2.15.2 아마존 레드시프트로 세이지메이커 모델 훈련 및 호출하기
      3. 2.15.3 ‌아마존 오로라 SQL 데이터베이스에서 아마존 컴프리헨드와 세이지메이커 모델 호출하기
      4. 2.15.4 아마존 아테나에서 세이지메이커 모델 호출하기
      5. 2.15.5 아마존 넵튠으로 그래프 데이터 예측하기
    16. 2.16 차세대 AI/ML 개발자를 위한 교육
      1. 2.16.1 AWS 딥렌즈로 컴퓨터 비전 모델 빌드하기
      2. 2.16.2 AWS 딥레이서로 강화 학습 배우기
      3. 2.16.3 AWS 딥컴포저로 GAN 이해하기
    17. 2.17 양자 컴퓨팅을 통한 운영체제 프로그램
      1. 2.17.1 양자 비트와 디지털 비트
      2. 2.17.2 양자 우월성과 양자 컴퓨팅 시대
      3. 2.17.3 암호 깨뜨리기
      4. 2.17.4 분자 시뮬레이션 및 약물 발견
      5. 2.17.5 물류와 재무 최적화
      6. 2.17.6 양자 머신러닝과 인공지능
      7. 2.17.7 아마존 브라켓으로 양자 컴퓨터 프로그래밍하기
      8. 2.17.8 AWS 양자 컴퓨팅 센터
    18. 2.18 비용 절감 및 성능 향상
      1. 2.18.1 코드구루 리뷰로 코드 리뷰 자동화하기
      2. 2.18.2 코드구루 프로파일러로 애플리케이션 성능 향상하기
      3. 2.18.3 아마존 데브옵스 구루로 애플리케이션 가용성 향상하기
    19. 2.19 마치며
  3. AutoML
    1. 3.1 세이지메이커 오토파일럿을 사용한 AutoML
    2. 3.2 세이지메이커 오토파일럿을 사용한 트래킹 실험
    3. 3.3 세이지메이커 오토파일럿을 사용한 자체 텍스트 분류기 훈련 및 배포
      1. 3.3.1 세이지메이커 오토파일럿 UI로 모델 훈련 및 배포하기
      2. 3.3.2 세이지메이커 오토파일럿 파이썬 SDK로 모델 훈련 및 배포하기 (1/2)
      3. 3.3.2 세이지메이커 오토파일럿 파이썬 SDK로 모델 훈련 및 배포하기 (2/2)
      4. 3.3.3 아마존 아테나와 아마존 오토파일럿으로 예측하기
      5. 3.3.4 아마존 레드시프트 ML과 세이지메이커 오토파일럿으로 훈련 및 예측하기
    4. 3.4 아마존 컴프리헨드를 사용한 AutoML
      1. 3.4.1 아마존 컴프리헨드의 빌트인 모델로 예측하기
      2. 3.4.2 아마존 컴프리헨드 UI로 커스텀 모델 훈련 및 배포하기
      3. 3.4.3 아마존 컴프리헨드 파이썬 SDK로 커스텀 모델 훈련 및 배포하기
    5. 3.5 마치며
  4. 클라우드로 데이터 수집하기
    1. 4.1 데이터 레이크
      1. 4.1.1 S3 데이터 레이크로 데이터 가져오기
      2. 4.1.2 데이터셋 설명하기
    2. 4.2 아마존 아테나를 사용해 아마존 S3 데이터 레이크 쿼리하기
      1. 4.2.1 AWS 콘솔에서 아테나 액세스하기
      2. 4.2.2 S3 데이터를 아테나 테이블로 등록하기
      3. 4.2.3 새 데이터가 도착할 때 AWS 글루 크롤러로 아테나 테이블 업데이트하기
      4. 4.2.4 아테나에서 파케이 기반 테이블 생성하기
    3. 4.3 AWS 글루 크롤러를 통해 지속적으로 새 데이터 수집하기
    4. 4.4 아마존 레드시프트 스펙트럼으로 레이크 하우스 구축하기 (1/2)
    5. 4.4 아마존 레드시프트 스펙트럼으로 레이크 하우스 구축하기 (2/2)
      1. 4.4.1 아마존 레드시프트 데이터를 S3 데이터 레이크에 파케이로 내보내기
      2. 4.4.2 아마존 레드시프트 클러스터 간에 데이터 공유하기
    6. 4.5 아마존 아테나와 아마존 레드시프트 중에서 선택하기
    7. 4.6 비용 절감 및 성능 향상
      1. 4.6.1 S3 인텔리전트-티어링
      2. 4.6.2 파케이 파티션 및 압축
      3. 4.6.3 아마존 레드시프트 테이블 설계 및 압축
      4. 4.6.4 블룸 필터를 사용한 쿼리 성능 향상
      5. 4.6.5 아마존 레드시프트 스펙트럼의 구체화 뷰
    8. 4.7 마치며
  5. 데이터셋 탐색하기
    1. 5.1 AWS에서의 데이터 탐색을 위한 도구
    2. 5.2 세이지메이커 스튜디오를 사용한 데이터 레이크 시각화
      1. 5.2.1 데이터셋을 시각화하기 위해 세이지메이커 스튜디오 준비하기
      2. 5.2.2 세이지메이커 스튜디오에서 아테나의 표본 쿼리 실행하기
      3. 5.2.3 아테나와 세이지메이커로 데이터셋 심층 분석하기 (1/3)
      4. 5.2.3 아테나와 세이지메이커로 데이터셋 심층 분석하기 (2/3)
      5. 5.2.3 아테나와 세이지메이커로 데이터셋 심층 분석하기 (3/3)
    3. 5.3 데이터 웨어하우스 쿼리하기
      1. 5.3.1 세이지메이커 스튜디오에서 아마존 레드시프트 표본 쿼리 실행하기
      2. 5.3.2 아마존 레드시프트 및 세이지메이커로 데이터셋 심층 분석하기 (1/2)
      3. 5.3.2 아마존 레드시프트 및 세이지메이커로 데이터셋 심층 분석하기 (2/2)
    4. 5.4 아마존 퀵사이트를 사용한 대시보드 생성
    5. 5.5 아마존 세이지메이커 및 아파치 스파크를 사용한 데이터 품질 문제 감지
      1. 5.5.1 세이지메이커 프로세싱
      2. 5.5.2 디큐 및 아파치 스파크로 데이터셋 분석하기 (1/2)
      3. 5.5.2 디큐 및 아파치 스파크로 데이터셋 분석하기 (2/2)
    6. 5.6 데이터셋에서 편향 감지하기
      1. 5.6.1 세이지메이커 데이터 랭글러로 편향 보고서 생성 및 시각화하기
      2. 5.6.2 세이지메이커 클래리파이 프로세싱으로 편향 감지하기
      3. 5.6.3 세이지메이커 클래리파이 오픈 소스로 커스텀 스크립트에 편향 감지 통합하기
      4. 5.6.4 데이터 균형을 조정하여 데이터 편향 완화하기
    7. 5.7 세이지메이커 클래리파이로 다양한 유형의 드리프트 감지
    8. 5.8 AWS 글루 데이터브루를 사용한 데이터 분석
    9. 5.9 비용 절감 및 성능 향상
      1. 5.9.1 민감하지 않은 아테나 쿼리 결과에 공유 S3 버킷 사용하기
      2. 5.9.2 하이퍼로그로그로 대략적인 카운트하기
      3. 5.9.3 아마존 레드시프트용 AQUA로 데이터 웨어하우스를 동적으로 확장하기
      4. 5.9.4 퀵사이트 SPICE로 대시보드 성능 향상하기
    10. 5.10 마치며
  6. 모델 훈련을 위한 데이터셋 준비
    1. 6.1 피처 선택 및 엔지니어링 실행
      1. 6.1.1 피처 중요도에 따른 훈련 기능 선택
      2. 6.1.2 모델 정확도 향상을 위한 데이터셋 균형 맞추기
      3. 6.1.3 데이터셋을 훈련, 검증, 테스트 데이터셋으로 분할하기
      4. 6.1.4 원시 텍스트를 BERT 임베딩으로 변환하기 (1/2)
      5. 6.1.4 원시 텍스트를 BERT 임베딩으로 변환하기 (2/2)
      6. 6.1.5 피처 및 레이블을 최적화된 텐서플로우 파일 형식으로 변환하기
    2. 6.2 세이지메이커 프로세싱 작업을 통한 피처 엔지니어링 확장
      1. 6.2.1 사이킷런 및 텐서플로우로 변환하기
      2. 6.2.2 아파치 스파크 및 텐서플로우로 변환하기 (1/2)
      3. 6.2.2 아파치 스파크 및 텐서플로우로 변환하기 (2/2)
    3. 6.3 세이지메이커 피처 스토어를 통한 피처 공유
      1. 6.3.1 피처를 세이지메이커 피처 스토어에 주입하기
      2. 6.3.2 세이지메이커 피처 스토어에서 피처 검색하기
    4. 6.4 세이지메이커 데이터 랭글러를 사용한 데이터 주입 및 변환
    5. 6.5 아마존 세이지메이커를 사용한 아티팩트 및 익스페리먼트 계보 트래킹
      1. 6.5.1 계보 트래킹 개념
      2. 6.5.2 피처 엔지니어링 프로세싱 서비스의 계보 확인하기
      3. 6.5.3 세이지메이커 익스페리먼츠 API 이해하기
    6. 6.6 AWS 글루 데이터브루를 사용한 데이터 주입 및 변환
    7. 6.7 마치며
  7. 나의 첫 모델 훈련시키기
    1. 7.1 세이지메이커 인프라 이해하기
      1. 7.1.1 세이지메이커 컨테이너 소개
      2. 7.1.2 컴퓨트 및 네트워크 격리로 가용성 향상하기
    2. 7.2 세이지메이커 점프스타트를 사용해 사전 훈련된 BERT 모델 배포하기
    3. 7.3 세이지메이커 모델 개발
      1. 7.3.1 빌트인 알고리즘
      2. 7.3.2 자체 스크립트 작성하기
      3. 7.3.3 자체 컨테이너 작성하기
    4. 7.4 자연어 처리 역사
    5. 7.5 BERT 트랜스포머 아키텍처
    6. 7.6 처음부터 BERT 훈련시키기
      1. 7.6.1 마스킹된 언어 모델
      2. 7.6.2 다음 문장 예측
    7. 7.7 사전 훈련된 BERT 모델 미세 조정하기
    8. 7.8 훈련 스크립트 생성
      1. 7.8.1 훈련, 검증, 테스트 데이터셋 분할 설정하기
      2. 7.8.2 커스텀 분류기 모델 설정하기
      3. 7.8.3 모델 훈련 및 검증하기
      4. 7.8.4 훈련 및 검증한 모델 저장하기
    9. 7.9 세이지메이커 노트북에서 훈련 스크립트 시작하기
      1. 7.9.1 모니터링할 지표 정의 및 캡처하기
      2. 7.9.2 알고리즘에 대한 하이퍼파라미터 구성하기
      3. 7.9.3 인스턴스 유형 및 인스턴스 수 선택하기
      4. 7.9.4 세이지메이커 노트북에 모두 담기
      5. 7.9.5 S3에서 훈련된 모델 다운로드하고 검사하기
      6. 7.9.6 세이지메이커 트레이닝을 위한 실험 계보 확인하기
      7. 7.9.7 세이지메이커 트레이닝의 아티팩트 계보 확인하기
    10. 7.10 모델 평가하기
      1. 7.10.1 세이지메이커 노트북에서 애드혹 예측 실행하기
      2. 7.10.2 혼동 행렬로 분류기 분석하기
      3. 7.10.3 텐서보드로 신경망 시각화하기
      4. 7.10.4 세이지메이커 스튜디오로 지표를 모니터링하기
      5. 7.10.5 클라우드워치 지표를 모니터링하기
    11. 7.11 ‌세이지메이커 디버거를 사용한 모델 훈련 디버깅 및 프로파일링
      1. 7.11.1 세이지메이커 디버거 규칙과 액션으로 훈련 이슈 식별 및 해결하기
      2. 7.11.2 훈련 작업으로 프로파일링하기
    12. 7.12 모델 예측 해석 및 설명 (1/2)
    13. 7.12 모델 예측 해석 및 설명 (2/2)
    14. 7.13 모델 편향 감지 및 예측 설명
      1. 7.13.1 세이지메이커 클래리파이 프로세싱으로 편향 감지하기
      2. 7.13.2 ‌세이지메이커 클래리파이 및 SHAP를 사용해 속성과 중요도로 피처 정하기
    15. 7.14 BERT를 위한 추가 훈련 선택
      1. 7.14.1 텐서플로우 BERT 모델을 파이토치로 변환하기
      2. 7.14.2 세이지메이커로 파이토치 BERT 모델 훈련시키기
      3. 7.14.3 세이지메이커로 아파치 MXNet BERT 모델 훈련시키기
      4. 7.14.4 파이토치 및 AWS 딥 자바 라이브러리로 BERT 모델 훈련시키기
    16. 7.15 비용 절감 및 성능 향상
      1. 7.15.1 작고 저렴한 세이지메이커 노트북 인스턴스 사용하기
      2. 7.15.2 로컬로 모델 훈련 스크립트 테스트하기
      3. 7.15.3 세이지메이커 디버거로 훈련 작업 프로파일링하기
      4. 7.15.4 사전 훈련된 모델로 시작하기
      5. 7.15.5 16비트 반정밀도 및 bfloat16 사용하기
      6. 7.15.6 32비트 완전 정밀도 및 16비트 반정밀도 혼합하기
      7. 7.15.7 양자화
      8. 7.15.8 훈련에 최적화된 하드웨어 사용하기
      9. 7.15.9 스팟 인스턴스 및 체크포인트
      10. 7.15.10 세이지메이커 디버거의 조기 중지 규칙 정하기
    17. 7.16 마치며
  8. 대규모 모델 훈련과 최적화 전략
    1. 8.1 최적의 모델 하이퍼파라미터 자동으로 찾기
      1. 8.1.1 하이퍼파라미터 범위 설정하기
      2. 8.1.2 하이퍼파라미터 튜닝 작업 실행하기
      3. 8.1.3 튜닝 작업에서 최고의 하이퍼파라미터 분석하기
      4. 8.1.4 세이지메이커 튜닝 작업의 익스페리먼트 계보 확인하기
    2. 8.2 세이지메이커 하이퍼파라미터 튜닝에 웜스타트 추가 사용
      1. 8.2.1 웜스타트를 사용해 하이퍼파라미터 튜닝 작업 실행하기
      2. 8.2.2 웜스타트 튜닝 작업에서 최고의 하이퍼파라미터 분석하기
    3. 8.3 세이지메이커 분산 훈련으로 확장하기
      1. 8.3.1 분산 커뮤니케이션 전략 선택하기
      2. 8.3.2 병렬 전략 선택하기
      3. 8.3.3 분산 파일 시스템 선택하기
      4. 8.3.4 분산 훈련 작업 시작하기
    4. 8.4 비용 절감 및 성능 향상
      1. 8.4.1 합리적인 하이퍼파라미터 범위로 시작하기
      2. 8.4.2 ShardedByS3Key로 데이터 샤딩하기
      3. 8.4.3 파이프 모드로 즉석에서 데이터 스트리밍하기
      4. 8.4.4 향상된 네트워킹 활성화하기
    5. 8.5 마치며
  9. 프로덕션에 모델 배포하기
    1. 9.1 실시간 예측 또는 일괄 예측 선택하기
    2. 9.2 세이지메이커 엔드포인트를 사용한 실시간 예측
      1. 9.2.1 세이지메이커 파이썬 SDK를 사용해 모델 배포하기
      2. 9.2.2 실험에서 모델 배포 트래킹하기
      3. 9.2.3 배포된 모델의 실험 계보 분석하기
      4. 9.2.4 세이지메이커 파이썬 SDK를 사용해 예측 호출하기
      5. 9.2.5 HTTP POST를 사용해 예측 호출하기
      6. 9.2.6 추론 파이프라인 생성하기
      7. 9.2.7 SQL 및 그래프 기반 쿼리에서 세이지메이커 모델 호출하기
    3. 9.3 아마존 클라우드워치를 사용한 세이지메이커 엔드포인트 오토스케일링
      1. 9.3.1 AWS 제공 지표를 사용해 규모 조정 정책 정의하기
      2. 9.3.2 커스텀 지표로 스케일링 정책 정의하기
      3. 9.3.3 휴지 기간을 사용해 응답성 튜닝하기
      4. 9.3.4 오토스케일링 정책
    4. 9.4 새 모델 또는 업데이트된 모델로 배포하는 전략
      1. 9.4.1 카나리아 롤아웃의 트래픽 분할하기
      2. 9.4.2 블루/그린 배포를 위한 트래픽 이동시키기
    5. 9.5 새 모델 테스트 및 비교
      1. 9.5.1 A/B 테스트를 수행하여 모델 변형 비교하기
      2. 9.5.2 멀티암드 밴딧 테스트를 통한 강화 학습 (1/2)
      3. 9.5.2 멀티암드 밴딧 테스트를 통한 강화 학습 (2/2)
    6. 9.6 모델 성능 모니터링 및 드리프트 감지
      1. 9.6.1 데이터 캡처 활성화하기
      2. 9.6.2 베이스라인과 드리프트 이해하기
    7. 9.7 배포된 세이지메이커 엔드포인트의 데이터 품질 모니터링
      1. 9.7.1 데이터 품질을 측정하기 위한 베이스라인 만들기
      2. 9.7.2 데이터 품질의 모니터링 작업 예약하기
      3. 9.7.3 데이터 품질의 결과 검사하기
    8. 9.8 배포된 세이지메이커 엔드포인트의 모델 품질 모니터링하기
      1. 9.8.1 모델 품질을 측정하기 위한 베이스라인 생성하기
      2. 9.8.2 모델 품질 모니터링 작업 예약하기
      3. 9.8.3 모델 품질 모니터링 결과 검사하기
    9. 9.9 배포된 세이지메이커 엔드포인트의 편향 드리프트 모니터링
      1. 9.9.1 편향을 감지하기 위한 베이스라인 생성하기
      2. 9.9.2 편향 드리프트 모니터링 작업 예약하기
      3. 9.9.3 편향 드리프트 모니터링 결과 검사하기
    10. 9.10 ‌배포된 세이지메이커 엔드포인트의 피처 속성 드리프트 모니터링
      1. 9.10.1 피처 속성을 모니터링하기 위한 베이스라인 생성하기
      2. 9.10.2 피처 속성 드리프트 모니터링 작업 예약하기
      3. 9.10.3 피처 속성 드리프트 모니터링 결과 검사하기
    11. 9.11 세이지메이커 일괄 변환을 사용한 일괄 예측
      1. 9.11.1 인스턴스 유형 선택하기
      2. 9.11.2 입력 데이터 설정하기
      3. 9.11.3 세이지메이커 일괄 변환 환경 설정 튜닝하기
      4. 9.11.4 세이지메이커 일괄 변환 작업 준비하기
      5. 9.11.5 세이지메이커 일괄 변환 작업 실행하기
      6. 9.11.6 일괄 예측 검토하기
    12. 9.12 AWS 람다 함수 및 아마존 API 게이트웨이
    13. 9.13 엣지에서의 모델 관리 및 최적화
    14. 9.14 토치서브를 사용한 파이토치 모델 배포
    15. 9.15 AWS DJL을 사용한 텐서플로우-BERT 추론
    16. 9.16 비용 절감 및 성능 향상
      1. 9.16.1 사용하지 않는 엔드포인트 삭제 및 활용도가 낮은 클러스터 스케일링
      2. 9.16.2 하나의 컨테이너에 여러 모델 배포하기
      3. 9.16.3 GPU 기반 일래스틱 추론 액셀레이터 추가하기
      4. 9.16.4 세이지메이커 니오 및 텐서플로우 라이트로 훈련된 모델 최적화하기
      5. 9.16.5 추론에 최적화된 하드웨어 사용하기
    17. 9.17 마치며
  10. 파이프라인과 MLOps
    1. 10.1 머신러닝 운영
    2. 10.2 소프트웨어 파이프라인
    3. 10.3 머신러닝 파이프라인
      1. 10.3.1 효율적인 머신러닝 파이프라인의 컴포넌트
      2. 10.3.2 효율적인 머신러닝 파이프라인의 단계
    4. 10.4 ‌세이지메이커 파이프라인을 사용한 파이프라인 오케스트레이션
      1. 10.4.1 파이프라인 계보를 트래킹하는 실험 만들기
      2. 10.4.2 파이프라인 단계 정의하기
      3. 10.4.3 파이프라인 파라미터 설정하기
      4. 10.4.4 파이프라인 생성하기
      5. 10.4.5 파이썬 SDK로 파이프라인 시작하기
      6. 10.4.6 세이지메이커 스튜디오 UI로 파이프라인 시작하기
      7. 10.4.7 스테이징 및 프로덕션용 모델 승인하기
      8. 10.4.8 파이프라인 아티팩트 계보 검토하기
      9. 10.4.9 파이프라인 실험 계보 검토하기
    5. 10.5 세이지메이커 파이프라인으로 자동화하기
      1. 10.5.1 코드 커밋 시 깃옵스 트리거
      2. 10.5.2 새 데이터가 S3에 도착하면 트리거하기
      3. 10.5.3 시간 기반 일정 트리거
      4. 10.5.4 통계적 드리프트 트리거
    6. 10.6 더 많은 파이프라인 종류
      1. 10.6.1 AWS 스텝 함수와 데이터 과학 SDK
      2. 10.6.2 큐브플로우 파이프라인 (1/2)
      3. 10.6.2 큐브플로우 파이프라인 (2/2)
      4. 10.6.3 아파치 에어플로우
      5. 10.6.4 MLflow
      6. 10.6.5 텐서플로우 익스텐디드
    7. 10.7 휴먼인더루프 워크플로우
      1. 10.7.1 아마존 A2I로 모델 정확도 향상하기
      2. 10.7.2 세이지메이커 그라운드 트루스를 사용한 액티브 러닝 피드백 루프
    8. 10.8 비용 절감 및 성능 향상
      1. 10.8.1 파이프라인 단계 캐싱하기
      2. 10.8.2 저렴한 스팟 인스턴스 사용하기
    9. 10.9 마치며
  11. 데이터 스트리밍 분석과 머신러닝
    1. 11.1 온라인 학습과 오프라인 학습의 비교
    2. 11.2 스트리밍 애플리케이션
    3. 11.3 데이터 스트리밍용 윈도우 쿼리
      1. 11.3.1 스태거 윈도우
      2. 11.3.2 텀블링 윈도우
      3. 11.3.3 슬라이딩 윈도우
    4. 11.4 AWS에서 스트리밍 분석 및 머신러닝 구현하기
    5. 11.5 아마존 키네시스, AWS 람다, 아마존 세이지메이커를 사용한 실시간 상품 리뷰 분류
    6. 11.6 아마존 키네시스 데이터 파이어호스를 사용한 데이터 스트리밍 주입 구현
      1. 11.6.1 세이지메이커 엔드포인트를 호출하는 람다 함수 생성하기
      2. 11.6.2 키네시스 데이터 파이어호스 전송 스트림 생성하기
      3. 11.6.3 스트림상에서 메시지 넣기
    7. 11.7 스트리밍 분석으로 실시간 상품 리뷰 요약하기
    8. 11.8 아마존 키네시스 데이터 애널리틱스 설정
      1. 11.8.1 커스텀 애플리케이션으로 데이터를 전송하기 위한 키네시스 데이터 스트림 생성하기
      2. 11.8.2 아마존 SNS를 통해 알림을 보내는 AWS 람다 함수 생성하기
      3. 11.8.3 아마존 클라우드워치에 지표를 게시하는 AWS 람다 함수 생성하기
      4. 11.8.4 키네시스 데이터 애널리틱스에서 스트리밍 데이터 변환하기
      5. 11.8.5 인애플리케이션 안의 스트림 및 펌프 이해하기
    9. 11.9 아마존 키네시스 데이터 애널리틱스 애플리케이션
      1. 11.9.1 평균 별점 계산하기
      2. 11.9.2 데이터 스트리밍에서 이상치 감지하기
      3. 11.9.3 데이터 스트리밍의 대략적인 개수 계산하기
      4. 11.9.4 키네시스 데이터 애널리틱스 애플리케이션 생성하기
      5. 11.9.5 키네시스 데이터 애널리틱스 애플리케이션 시작하기
      6. 11.9.6 스트림에 메시지 넣기
    10. 11.10 아파치 카프카, AWS 람다, 아마존 세이지메이커를 사용한 상품 리뷰 분류
    11. 11.11 비용 절감 및 성능 향상
      1. 11.11.1 메시지 집계하기
      2. 11.11.2 키네시스 파이어호스와 키네시스 데이터 스트림 비교 검토하기
      3. 11.11.3 키네시스 데이터 스트림을 위해 향상된 팬아웃 활성화하기
    12. 11.12 마치며
  12. AWS 보안
    1. 12.1 AWS와 사용자 간의 공동 책임 모델
    2. 12.2 AWS IAM
      1. 12.2.1 IAM 사용자
      2. 12.2.2 IAM 정책
      3. 12.2.3 IAM 사용자 역할
      4. 12.2.4 IAM 서비스 역할
      5. 12.2.5 IAM 역할에 대한 조건 키 지정하기
      6. 12.2.6 다중 인증 활성화하기
      7. 12.2.7 IAM 역할 및 정책을 통한 최소 권한 액세스
      8. 12.2.8 리소스 기반 IAM 정책
      9. 12.2.9 자격 증명 기반 IAM 정책
    3. 12.3 컴퓨팅 및 네트워크 환경 격리
      1. 12.3.1 가상 사설 클라우드
      2. 12.3.2 VPC 엔드포인트 및 프라이빗링크
      3. 12.3.3 VPC 엔드포인트 정책으로 아테나 API 제한하기
    4. 12.4 아마존 S3 데이터 액세스 보호
      1. 12.4.1 S3 버킷 정책으로 VPC 엔드포인트 요구하기
      2. 12.4.2 VPC 엔드포인트 정책으로 S3 버킷용 S3 API 제한하기
      3. 12.4.3 S3 버킷 정책으로 특정 VPC에 대한 S3 버킷 액세스 제한하기
      4. 12.4.4 S3 버킷 정책으로 S3 API 제한하기
      5. 12.4.5 IAM 역할 정책을 사용해 S3 데이터 액세스 제한하기
      6. 12.4.6 IAM 역할 정책으로 특정 VPC에 대한 S3 버킷 액세스 제한하기
      7. 12.4.7 S3 액세스 포인트를 사용해 S3 데이터 액세스 제한하기
    5. 12.5 저장 시 암호화
      1. 12.5.1 AWS KMS 키 생성하기
      2. 12.5.2 모델 훈련 중 아마존 EBS 볼륨 암호화하기
      3. 12.5.3 훈련 후 S3에 저장된 모델 암호화하기
      4. 12.5.4 AWS KMS로 암호화 키 저장하기
      5. 12.5.5 업로드된 S3 객체에 대해 S3 암호화 시행하기
      6. 12.5.6 세이지메이커 작업에 대한 저장 시 암호화 시행하기
      7. 12.5.7 세이지메이커 노트북에 대한 저장 시 암호화 시행하기
      8. 12.5.8 세이지메이커 스튜디오에 대한 저장 시 암호화 시행하기
    6. 12.6 전송 중 암호화
      1. 12.6.1 KMS를 사용한 전송 중인 양자 내성 TLS 암호화하기
      2. 12.6.2 훈련 클러스터 컨테이너 간의 트래픽 암호화하기
      3. 12.6.3 세이지메이커 작업에 대해 컨테이너 간 암호화 시행하기
    7. 12.7 세이지메이커 노트북 인스턴스 보호
      1. 12.7.1 세이지메이커 노트북 내부의 루트 액세스 거부하기
      2. 12.7.2 세이지메이커 노트북에 대한 인터넷 액세스 비활성화하기
    8. 12.8 세이지메이커 스튜디오 보안
      1. 12.8.1 세이지메이커 스튜디오용 VPC 요청하기
      2. 12.8.2 세이지메이커 스튜디오 인증하기
    9. 12.9 세이지메이커 작업과 모델 보안
      1. 12.9.1 세이지메이커 작업에 VPC 요구하기
      2. 12.9.2 세이지메이커 작업에 대한 네트워크 격리 요구하기
    10. 12.10 AWS 레이크 포메이션 보호
    11. 12.11 AWS 시크릿 매니저를 통한 데이터베이스 자격 증명 보안
    12. 12.12 거버넌스
      1. 12.12.1 AWS 컨트롤 타워로 안전한 다중 계정 AWS 환경 보안하기
      2. 12.12.2 AWS 오거니제이션으로 계정 관리하기
      3. 12.12.3 서비스 제어 정책(SCP)으로 계정 수준 권한 적용하기
      4. 12.12.4 다중 계정 모델 배포 구현하기
    13. 12.13 감사 가능성
      1. 12.13.1 리소스에 태그 지정하기
      2. 12.13.2 활동 기록 및 이벤트 수집하기
      3. 12.13.3 사용자 활동 및 API 호출 트래킹하기
    14. 12.14 비용 절감 및 성능 향상
      1. 12.14.1 비용을 제어하기 위해 인스턴스 유형 제한하기
      2. 12.14.2 태그가 지정되지 않은 리소스를 격리 또는 삭제하기
      3. 12.14.3 S3 버킷 KMS 키를 사용해 비용 절감 및 성능 향상하기
    15. 12.15 마치며
  13. AWS 서비스명 (1/4)
  14. AWS 서비스명 (2/4)
  15. AWS 서비스명 (3/4)
  16. AWS 서비스명 (4/4)

Product information

  • Title: AWS 기반 데이터 과학
  • Author(s): 최미영, 크리스 프레글리, 이용혁 (감수), 안티 바르트, 서진호
  • Release date: April 2023
  • Publisher(s): Hanbit Media, Inc.
  • ISBN: 9791169210942