book

Scikit-Learn과 PyTorch를 활용한 실전 머신러닝

Name: Scikit-Learn과 PyTorch를 활용한 실전 머신러닝
Author: Aurélien Géron
ISBN: 0642572270094

by Aurélien Géron

October 2025

Intermediate to advanced

878 pages

16h 9m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
프로젝트에서의 머신 러닝목표 및 접근 방식코드 예제전제 조건로드맵TensorFlow와 PyTorch 버전 간의 변경 사항기타 리소스이 책에서 사용된 규칙오라일리 온라인 학습문의 방법감사의 말
I. 머신 러닝의 기초
1. 머신 러닝 환경
머신 러닝이란 무엇인가요?왜 머신러닝을 사용해야 할까요?적용 사례머신러닝 시스템의 유형훈련 감독배치 학습 대 온라인 학습인스턴스 기반 대 모델 기반 학습머신 러닝의 주요 과제훈련 데이터의 양이 충분하지 않은 경우대표성이 없는 훈련 데이터품질이 낮은 데이터관련 없는 기능학습 데이터 과적합학습 데이터 과소 적합배포 문제한 걸음 물러서기테스트 및 검증하이퍼파라미터 튜닝 및 모델 선택데이터 불일치연습
2. 엔드투엔드 머신 러닝 프로젝트
실제 데이터로 작업하기큰 그림 보기문제 프레임 잡기성능 측정값 선택가정 확인데이터 가져오기Google Colab을 사용하여 코드 예제 실행하기코드 변경 사항 및 데이터 저장하기상호작용의 힘과 위험북 코드와 노트북 코드 비교데이터 다운로드데이터 구조 간단히 살펴보기테스트 집합 만들기데이터를 탐색하고 시각화하여 인사이트 얻기지리적 데이터 시각화하기상관 관계 찾기속성 조합으로 실험하기머신 러닝 알고리즘을 위한 데이터 준비하기데이터 정리텍스트 및 범주형 속성 처리하기기능 크기 조정 및 변환사용자 지정 트랜스포머변환 파이프라인모델 선택 및 훈련훈련 세트에서 훈련 및 평가교차 검증을 사용한 더 나은 평가모델 미세 조정그리드 검색무작위 검색앙상블 방법최고의 모델과 그 오류 분석하기테스트 세트에서 시스템 평가하기시스템 시작, 모니터링 및 유지 관리하기사용해 보세요!연습
3. 분류
MNIST이진 분류기 훈련하기성능 측정교차 검증을 사용한 정확도 측정하기혼동 행렬정확도 및 리콜정확도/회상률 트레이드 오프ROC 곡선다중 클래스 분류오류 분석다중 라벨 분류다중 출력 분류연습
4. 훈련 모델
선형 회귀정규 방정식계산 복잡도그라디언트 하강배치 그라디언트 하강확률적 그라데이션 하강미니 배치 그라디언트 하강다항식 회귀학습 곡선정규화된 선형 모델릿지 회귀올가미 회귀탄성 순 회귀조기 중지로지스틱 회귀확률 추정훈련 및 비용 함수의사 결정 경계소프트맥스 회귀연습
5. 의사 결정 트리
의사 결정 트리 훈련 및 시각화예측하기클래스 확률 추정하기CART 훈련 알고리즘계산 복잡성지니 불순도 또는 엔트로피?정규화 하이퍼파라미터회귀축 방향에 대한 민감도의사 결정 트리의 분산이 높음연습
6. 앙상블 학습 및 랜덤 포레스트
투표 분류기배깅 및 붙여넣기Scikit-Learn의 배깅 및 붙여넣기아웃 오브 백 평가랜덤 패치 및 랜덤 부분 공간랜덤 포레스트추가 트리기능 중요도부스팅AdaBoost그래디언트 부스팅히스토그램 기반 그래디언트 부스팅스태킹연습
7. 차원 감소
차원성의 저주차원 감소를 위한 주요 접근 방식투영매니폴드 학습PCA분산 보존주요 구성 요소d 차원으로 투영하기Scikit-Learn 사용분산 비율 설명적절한 차원 수 선택하기압축을 위한 PCA무작위 PCA증분 PCA무작위 투영LLE다른 차원 감소 기법연습
8. 비지도 학습 기법
클러스터링 알고리즘: k-평균과 DBSCANk-평균 클러스터링k-평균의 한계이미지 분할을 위한 클러스터링 사용반지도 학습에 클러스터링 사용하기DBSCAN기타 클러스터링 알고리즘가우시안 혼합이상 탐지를 위한 가우시안 혼합 사용클러스터 수 선택하기베이지안 가우시안 혼합 모델이상 및 신규성 탐지를 위한 기타 알고리즘연습

II. 신경망과 Deep Learning
9. 인공 신경망 소개 9.
생물학적 뉴런에서 인공 뉴런으로생물학적 뉴런뉴런을 사용한 논리 계산퍼셉트론다층 퍼셉트론과 역전파Scikit-Learn으로 MLP 구축 및 훈련하기회귀 MLP분류 MLP하이퍼파라미터 튜닝 가이드라인숨겨진 레이어 수히든 레이어당 뉴런 수학습 속도배치 크기기타 하이퍼파라미터연습
10. PyTorch로 신경망 구축하기 10.
PyTorch 기초PyTorch Tensors하드웨어 가속Autograd선형 회귀 구현하기텐서 및 오토그래드를 사용한 선형 회귀 분석PyTorch의 고급 API를 사용한 선형 회귀 분석회귀 MLP 구현하기데이터로더를 사용하여 미니 배치 경사 하강 구현하기모델 평가사용자 정의 모듈을 사용하여 비순차 모델 구축하기다중 입력으로 모델 구축하기다중 출력으로 모델 구축하기PyTorch로 이미지 분류기 구축하기TorchVision을 사용하여 데이터 세트 로드하기분류기 구축하기Optuna로 신경망 하이퍼파라미터 미세 조정하기PyTorch 모델 저장 및 로드하기PyTorch 모델 컴파일 및 최적화하기연습
11. 심층 신경망 훈련하기 11.
소실/폭발하는 그라데이션 문제글로롯 초기화 및 히 초기화더 나은 활성화 함수배치 정규화레이어 정규화그라디언트 클리핑사전 훈련된 레이어 재사용하기PyTorch를 사용한 전이 학습비지도 사전 훈련보조 작업에 대한 사전 훈련더 빠른 옵티마이저모멘텀네스테로프 가속 그라디언트AdaGradRMSPropAdamAdaMaxNAdamAdamW학습 속도 스케줄링지수 스케줄링코사인 어닐링성능 스케줄링학습 속도 워밍업웜 재시작을 사용한 코사인 어닐링1주기 스케줄링정규화를 통한 과적합 방지ℓ1 및 ℓ2 정규화드롭아웃몬테카를로 드롭아웃최대 노멀 정규화실무 지침연습
12. 컨볼루션 신경망을 이용한 딥 컴퓨터 비전
시각 피질의 아키텍처컨볼루션 레이어필터여러 피처 맵 스태킹PyTorch로 컨볼루션 레이어 구현하기레이어 풀링PyTorch로 풀링 레이어 구현하기CNN 아키텍처LeNet-5AlexNetGoogLeNetResNetXceptionSENet기타 주목할 만한 아키텍처올바른 CNN 아키텍처 선택하기GPU RAM 요구 사항: 추론과 훈련 비교가역적 잔여 네트워크(RevNet)PyTorch를 사용하여 ResNet-34 CNN 구현하기TorchVision의 사전 훈련된 모델 사용하기전이 학습을 위한 사전 훈련된 모델분류 및 지역화물체 감지완전한 컨볼루션 네트워크한 번만 보기객체 추적시맨틱 세분화연습
13. RNN과 CNN을 사용한 시퀀스 처리하기
반복 뉴런과 레이어메모리 셀입력 및 출력 시퀀스RNN 훈련하기시계열 예측ARMA 모델 제품군머신러닝 모델용 데이터 준비하기선형 모델을 사용한 예측단순 RNN을 사용한 예측심층 RNN을 사용한 예측다변량 시계열 예측하기여러 시간 단계 앞 예측하기시퀀스 간 모델을 사용하여 예측하기긴 시퀀스 처리하기불안정한 그래디언트 문제 해결하기단기 메모리 문제 해결하기연습
14. RNN과 주의력을 이용한 자연어 처리
문자 RNN을 사용한 셰익스피어 텍스트 생성하기훈련 데이터 집합 만들기임베딩Char-RNN 모델 구축 및 훈련하기가짜 셰익스피어 텍스트 생성하기포옹 얼굴 라이브러리를 사용한 감정 분석포옹하는 얼굴 토큰화 라이브러리를 사용한 토큰화사전 훈련된 토큰화 기법 재사용하기감정 분석 모델 구축 및 훈련하기양방향 RNN사전 훈련된 임베딩과 언어 모델 재사용하기작업별 클래스트레이너 API포옹 얼굴 파이프라인신경망 기계 번역을 위한 인코더-디코더 네트워크빔 검색주의 메커니즘연습
15. 자연어 처리와 챗봇을 위한 트랜스포머
관심만 있으면 충분합니다: 오리지널 트랜스포머 아키텍처위치 인코딩멀티 헤드 어텐션나머지 트랜스포머 구축하기영어-스페인어 변환기 구축하기자연어 이해를 위한 인코더 전용 트랜스포머BERT의 아키텍처BERT 사전 교육BERT 미세 조정기타 인코더 전용 모델디코더 전용 트랜스포머GPT-1 아키텍처 및 생성적 사전 훈련GPT-2 및 제로 샷 학습GPT-3, 인컨텍스트 학습, 원샷 학습 및 소수 샷 학습GPT-2를 사용하여 텍스트 생성하기질문 답변에 GPT-2 사용더 큰 모델 다운로드 및 실행하기 Mistral-7B대규모 언어 모델을 챗봇으로 전환하기SFT 및 RLHF를 사용하여 채팅 및 지침을 따르기 위한 모델 미세 조정하기직접 기본 설정 최적화(DPO)TRL 라이브러리를 사용하여 모델 미세 조정하기챗봇 모델에서 전체 챗봇 시스템으로 전환하기모델 컨텍스트 프로토콜라이브러리 및 도구인코더-디코더 모델연습
16. 비전 및 멀티모달 트랜스포머
비전 트랜스포머시각적 주의력을 갖춘 RNNDETR: 객체 감지를 위한 CNN-트랜스포머 하이브리드오리지널 ViT데이터 효율적인 이미지 트랜스포머고밀도 예측 작업을 위한 피라미드 비전 트랜스포머스윈 트랜스포머: 빠르고 다재다능한 ViTDINO: 자기 지도형 시각 표현 학습기타 주요 비전 모델 및 기법멀티모달 트랜스포머VideoBERT: 텍스트와 비디오를 위한 BERT 변형ViLBERT: 텍스트와 이미지를 위한 듀얼 스트림 트랜스포머CLIP: 대비 사전 훈련으로 훈련된 듀얼 인코더 텍스트와 이미지 모델DALL-E: 텍스트 프롬프트에서 이미지 생성하기Perceiver: 고해상도 모달리티와 잠재 공간 연결하기퍼시버 IO: 퍼시버를 위한 유연한 출력 메커니즘플라밍고 개방형 시각적 대화BLIP 및 BLIP-2기타 멀티모달 모델연습
17. 트랜스포머 속도 향상
18. 자동 인코더, GAN 및 확산 모델
효율적인 데이터 표현불완전한 선형 자동 인코더로 PCA 수행하기스택형 자동 인코더PyTorch를 사용한 스택형 자동 인코더 구현하기재구성 시각화하기자동 인코더를 사용한 이상 징후 감지패션 MNIST 데이터 세트 시각화하기스택형 자동 인코더를 사용한 비지도 사전 훈련가중치 묶기한 번에 하나의 오토인코더 훈련하기컨볼루션 자동 인코더노이즈 제거 자동 인코더스파스 자동 인코더변형 자동 인코더패션 MNIST 이미지 생성이산 가변 자동 인코더생성적 적대 네트워크GAN 훈련의 어려움확산 모델연습
19. 강화 학습
강화 학습이란 무엇인가요?정책 그라데이션체육관 라이브러리 소개신경망 정책액션 평가하기 신용 할당 문제정책 그라디언트를 사용한 카트폴 풀기가치 기반 방법마르코프 결정 과정시간 차이 학습Q-학습탐색 정책근사 Q-Learning과 심층 Q-Learning심층 Q-Learning 구현하기DQN 개선 사항액터-크리틱 알고리즘스테이블-베이스라인3 PPO 구현을 사용한 아타리 브레이크아웃 마스터하기몇 가지 인기 있는 RL 알고리즘 개요연습감사합니다!
A. 자동 디프
수동 미분유한 차분 근사법정방향 모드 자동 미분역방향 모드 자동 미분
B. 혼합 정밀도 및 정량화
일반적인 숫자 표현정밀도 감소 모델혼합 정밀도 훈련양자화선형 양자화torch.ao.quantization을 사용한 훈련 후 양자화양자화 인식 훈련(QAT)비트샌드바이트 라이브러리를 사용하여 LLM 양자화하기사전 정량화된 모델 사용
색인
저자 소개

Content preview from Scikit-Learn과 PyTorch를 활용한 실전 머신러닝

15장. 자연어 처리와 챗봇을 위한 트랜스포머

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

2017년의 획기적인 논문 에서 "주의력만 있으면 된다"라는 제목의 논문이 발표되었습니다 .¹ Google 연구팀은 신경망 기계 번역(NMT)()의 최신 기술을 크게 개선한 새로운 신경망 아키텍처( )인 Transformer를 제안했습니다. 간단히 말해 Transformer 아키텍처는 14장에서 영어-스페인어 번역을 위해 구축한 것과 매우 유사한 인코더-디코더 모델이며, 정확히 동일한 방식으로 사용할 수 있습니다( 그림 15-1 참조):

소스 텍스트는 인코더로 이동하여 문맥화된 임베딩(토큰당 하나씩)을 출력합니다.
인코더의 출력은 지금까지 번역된 텍스트(시퀀스 시작 토큰부터 시작)와 함께 디코더에 공급됩니다.
디코더는 각 입력 토큰에 대해 다음 토큰을 예측합니다.
디코더가 출력한 마지막 토큰이 번역에 추가됩니다.
시퀀스 끝 토큰이 생성될 때까지 2~4단계를 반복하여 한 번에 하나의 추가 토큰씩 전체 번역을 생성합니다. 훈련 중에는 이미 전체 번역(타깃)이 있으므로 2단계(시퀀스 시작 토큰부터 시작)에서 디코더에 공급되며 4단계와 5단계는 필요하지 않습니다.

Diagram illustrating the Transformer model's process for translating English to Spanish, showing how the encoder generates contextual embeddings and the decoder predicts the next token in the translated sequence.

새로운 기능은 무엇일까요? 블랙박스 내부에는 이전 인코더-디코더와 몇 가지 중요한 차이점이 있습니다. 결정적으로 트랜스포머 아키텍처에는 리커런트 또는 컨볼루션 레이어가 없으며, 규칙적인 고밀도 레이어와 멀티헤드 어 텐션(MHA) 이라는 새로운 종류의 주의 메커니즘이 결합된 몇 가지 기능이 추가되었습니다.² 이 모델은 반복적이지 않기 때문에 RNN처럼 사라지거나 폭발하는 기울기 문제가 발생하지 않으며, 더 적은 단계로 훈련할 수 있고, 여러 GPU에서 병렬화하기가 더 쉬우며, 놀라울 정도로 잘 확장됩니다. 또한, 멀티헤드 주의 덕분에 이 모델은 RNN보다 장거리 패턴을 훨씬 더 잘 포착할 수 있습니다.

트랜스포머 아키텍처는 또한 매우 다재다능한 것으로 밝혀졌습니다. 처음에는 NMT용으로 설계되었지만 연구원들은 다른 많은 언어 작업에 맞게 아키텍처를 빠르게 조정했습니다. 2018년은 "NLP를 위한 이미지넷의 순간"이라고 불릴 정도였습니다. 2018년 6월, OpenAI는 Transformer의 디코더 모듈만을 기반으로 한 첫 번째 GPT 모델 을 출시했습니다. 이 모델은 대규모 텍스트 말뭉치에 대해 사전 훈련을 받았으며, 텍스트 생성 능력은 전례가 없었고 문장을 자동 완성하고 스토리를 만들어내며 일부 질문에 대한 답변도 할 수 있었습니다. 또한 GPT는 다양한 언어 작업을 수행하도록 미세 조정할 수 있었습니다. 불과 몇 달 후, 구글은 트랜스포머의 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572270094

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Scikit-Learn과 PyTorch를 활용한 실전 머신러닝

by Aurélien Géron

15장. 자연어 처리와 챗봇을 위한 트랜스포머

그림 15-1. 영어-스페인어 번역에 트랜스포머 모델 사용

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.