머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

Book description

머신러닝 모델을 구축하고, 테스트를 진행하려면 크고 다양한 종류의 데이터가 필요하다. 그러나 대부분의 데이터셋은 개인 정보 문제로 사용이 제한적이라 광범위하게 사용할 수 없다. 이 책에서는 실제 데이터로 새로운 데이터를 만드는 실용적인 합성 데이터 기술을 소개한다. 합성 데이터는 이차 분석에 용이하여 데이터 연구, 고객 행동의 이해, 신제품 개발 등 다양한 목적으로 활용될 수 있다. 이 책은 실제 데이터를 합성해 다양한 산업에서 사용할 수 있는 방법을 제공하며, 개인 정보 문제를 해결하는 방법을 다룬다. 또한 실제 데이터셋에서 합성 데이터를 생성하기 위한 원칙과 단계를 배운다. 더 나아가 합성 데이터가 제품이나 솔루션 개발에 드는 시간을 어떻게 단축할 수 있는지를 학습한다.

Table of contents

  1. 지은이 소개
  2. 옮긴이 소개
  3. 옮긴이의 말
  4. 이 책에 대하여
  5. 감사의 말 (1/2)
  6. 감사의 말 (2/2)
  7. 1 합성 데이터 생성 소개
    1. 1.1 합성 데이터 정의
      1. 1.1.1 실제 데이터로 합성하기
      2. 1.1.2 실제 데이터 없이 합성하기
      3. 1.1.3 합성과 효용성
    2. 1.2 합성 데이터의 이점
      1. 1.2.1 효율적인 데이터 접근
      2. 1.2.2 향상된 데이터 분석
      3. 1.2.3 대리로서의 합성 데이터
      4. 1.2.4 합성 데이터 신뢰성 확보를 위한 학습
    3. 1.3 합성 데이터의 활용 사례
      1. 1.3.1 제조와 유통
      2. 1.3.2 헬스케어 (1/2)
      3. 1.3.2 헬스케어 (2/2)
      4. 1.3.3 금융 서비스
      5. 1.3.4 교통
    4. 1.4 요약
  8. 2 데이터 합성
    1. 2.1 합성 시기
    2. 2.2 식별화 가능성 스펙트럼
    3. 2.3 데이터 접근 활성화를 위한 PET 선택의 절충
      1. 2.3.1 결정 기준
      2. 2.3.2 PET 고려하기
      3. 2.3.3 의사결정 프레임워크
      4. 2.3.4 의사결정 프레임워크 적용 사례
    4. 2.4 데이터 합성 프로젝트
      1. 2.4.1 데이터 합성 단계
      2. 2.4.2 데이터 준비
    5. 2.5 데이터 합성 파이프라인
    6. 2.6 합성 프로그램 관리
    7. 2.7 요약
  9. 3 시작: 분포 적합
    1. 3.1 데이터 프레임
    2. 3.2 데이터 분포 유형 (1/2)
    3. 3.2 데이터 분포 유형 (2/2)
    4. 3.3 실제 데이터에 분포 적합시키기
    5. 3.4 분포로부터 합성 데이터 생성
      1. 3.4.1 합성 데이터의 분포 적합성 측정
      2. 3.4.2 과적합 딜레마
      3. 3.4.3 잡초 제거
    6. 3.5 요약
  10. 4 합성 데이터의 효용성 평가
    1. 4.1 합성 데이터 효용성 프레임워크: 분석 복제
    2. 4.2 합성 데이터의 효용성 프레임워크: 효용성 메트릭
      1. 4.2.1 일변량 분포 비교
      2. 4.2.2 이변량 통계량 간의 비교
      3. 4.2.3 다변량 예측 모델 비교
      4. 4.2.4 구별 가능성
    3. 4.3 요약
  11. 5 데이터 합성 방법
    1. 5.1 합성 데이터 생성 이론
      1. 5.1.1 다변량 정규 분포에서 표본 추출
      2. 5.1.2 지정된 한계 분포로부터 상관관계 유도
      3. 5.1.3 알려진 한계 분포가 있는 코퓰러
    2. 5.2 실제 합성 데이터 생성
      1. 5.2.1 알려진 분포에 실제 데이터 적합하기
      2. 5.2.2 분포 적합을 위해 머신러닝 사용하기
    3. 5.3 하이브리드 합성 데이터
    4. 5.4 머신러닝 방법
    5. 5.5 딥러닝 방법
    6. 5.6 시퀀스 합성
    7. 5.7 요약
  12. 6 합성 데이터의 신원 식별
    1. 6.1 노출 유형
      1. 6.1.1 신원 노출
      2. 6.1.2 새로운 정보 알게 되기
      3. 6.1.3 속성 노출
      4. 6.1.4 추론적 노출
      5. 6.1.5 의미 있는 신원 노출
      6. 6.1.6 정보 이득 정의
      7. 6.1.7 모든 것을 하나로 모으기
      8. 6.1.8 고유한 일치
    2. 6.2 개인 정보 보호법이 합성 데이터의 생성과 사용에 미치는 영향
      1. 6.2.1 GDPR 이슈
      2. 6.2.2 CCPA 이슈
      3. 6.2.3 HIPAA 이슈
      4. 6.2.4 제29조 특별 조사 위원회의 의견
    3. 6.3 요약
  13. 7 실제 데이터 합성
    1. 7.1 데이터 복잡성 관리
      1. 7.1.1 전처리 단계를 위한 후처리 단계
      2. 7.1.2 필드 유형
      3. 7.1.3 규칙의 필요성
      4. 7.1.4 모든 필드를 합성할 필요는 없다
      5. 7.1.5 날짜 합성
      6. 7.1.6 지리 합성
      7. 7.1.7 조회 필드와 조회 테이블
      8. 7.1.8 누락된 데이터와 기타 데이터 특성
      9. 7.1.9 부분 합성
    2. 7.2 데이터 합성 구성
      1. 7.2.1 컴퓨팅 용량
      2. 7.2.2 기술 도구상자
      3. 7.2.3 전체 데이터셋 vs. 코호트 데이터셋 합성
      4. 7.2.4 연속 데이터 피드
      5. 7.2.5 인증으로서의 프라이버시 보장
      6. 7.2.6 구매를 위한 검증 연구 수행
      7. 7.2.7 의도적 공격자 테스트
      8. 7.2.8 합성 데이터 소유자는 누구인가?
    3. 7.3 결론
  14. INDEX (1/2)
  15. INDEX (2/2)

Product information

  • Title: 머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기
  • Author(s): 심상진, 칼리드 엘 에맘, 루시 모스케라, 리처드 홉트로프
  • Release date: January 2021
  • Publisher(s): Hanbit Media, Inc.
  • ISBN: 9791162247310