book

실무로 통하는 LLM 애플리케이션 설계

Name: 실무로 통하는 LLM 애플리케이션 설계
Author: 수하스 파이
ISBN: 9791169214384

by 수하스 파이, 박조은

October 2025

Intermediate

424 pages

10h 19m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

헌사
지은이·옮긴이 소개
베타리더의 한마디
추천사
옮긴이의 말
이 책에 대하여
목차 (1/2)
목차 (2/2)
PART 1 LLM의 구성 요소
chapter 1 LLM의 개념과 첫걸음

1.1 LLM의 정의
1.2 LLM의 간략한 역사
1.2.1 초창기1.2.2 현대 LLM 시대
1.3 LLM의 영향
1.4 기업 내 LLM 활용
1.5 프롬프팅 (1/2)
1.5.1 제로샷 프롬프팅1.5.2 퓨샷 프롬프팅1.5.3 사고의 사슬 프롬프팅
1.5 프롬프팅 (2/2)
1.5.4 프롬프트 체이닝1.5.5 적대적 프롬프팅
1.6 API를 통한 LLM 접근 방법
1.7 LLM의 강점과 한계
1.8 첫 번째 챗봇 프로토타입 만들기
1.9 프로토타입에서 제품화까지
1.10 마치며
chapter 2 사전 훈련 데이터
2.1 LLM을 만드는 구성 요소
2.2 사전 훈련 데이터 요구 사항
2.3 대표적인 사전 훈련 데이터셋
2.4 합성 사전 훈련 데이터
2.5 훈련 데이터 전처리 (1/5)
2.5.1 데이터 필터링 및 정제
2.5 훈련 데이터 전처리 (2/5)
2.5.2 양질의 문서 선택
2.5 훈련 데이터 전처리 (3/5)
2.5.3 중복 제거2.5.4 개인식별정보(PII) 제거
2.5 훈련 데이터 전처리 (4/5)
2.5 훈련 데이터 전처리 (5/5)
2.5.5 훈련 데이터셋 정화2.5.6 데이터 혼합
2.6 사전 훈련 데이터가 후속 작업에 미치는 영향
2.7 사전 훈련 데이터셋의 편향과 공정성 문제
2.8 마치며
chapter 3 어휘와 토큰화
3.1 어휘
3.2 토크나이저
3.3 토큰화 파이프라인 (1/2)
3.3.1 정규화3.3.2 사전 토큰화3.3.3 토큰화3.3.4 바이트 페어 인코딩
3.3 토큰화 파이프라인 (2/2)
3.3.5 워드피스3.3.6 특수 토큰
3.4 마치며
chapter 4 아키텍처와 학습 목표
4.1 기본 개념
4.2 의미 표현하기
4.3 트랜스포머 아키텍처 (1/2)
4.3.1 셀프 어텐션
4.3 트랜스포머 아키텍처 (2/2)
4.3.2 위치 인코딩4.3.3 피드포워드 네트워크4.3.4 층 정규화
4.4 손실 함수
4.5 내재적 모델 평가
4.6 트랜스포머 백본4.6.1 인코더 전용 아키텍처4.6.2 인코더-디코더 아키텍처4.6.3 디코더 전용 아키텍처4.6.4 전문가 혼합 구조
4.7 학습 목표 (1/3)
4.7.1 전체 언어 모델링
4.7 학습 목표 (2/3)
4.7.2 프리픽스 언어 모델링4.7.3 마스크 언어 모델링
4.7 학습 목표 (3/3)
4.7.4 더 우수한 학습 목표
4.8 사전 훈련 모델
4.9 마치며
PART 2 LLM 활용하기
chapter 5 사용 목적에 맞게 LLM 활용하기
5.1 LLM 생태계 탐색하기5.1.1 주요 LLM 제공자5.1.2 모델 종류
5.1.3 오픈 소스 LLM
5.2 적합한 LLM을 선택하는 방법 (1/2)
5.2.1 오픈 소스 LLM과 독점 LLM5.2.2 LLM 평가
5.2 적합한 LLM을 선택하는 방법 (2/2)
5.3 LLM 로딩 방법
5.3.1 허깅 페이스 accelerate5.3.2 Ollama
5.3.3 LLM 추론 API
5.4 디코딩 전략5.4.1 탐욕적 디코딩5.4.2 빔 서치5.4.3 top-k 샘플링5.4.4 top-p 샘플링
5.5 LLM에서 추론 실행하기
5.6 구조화된 출력
5.7 모델 디버깅 및 해석 가능성
5.8 마치며
chapter 6 파인 튜닝
6.1 파인 튜닝의 필요성
6.2 파인 튜닝: 전체 예제 (1/4)
6.2.1 학습 알고리즘 파라미터
6.2 파인 튜닝: 전체 예제 (2/4)
6.2.2 메모리 최적화 파라미터6.2.3 정규화 파라미터
6.2 파인 튜닝: 전체 예제 (3/4)
6.2.4 배치 크기6.2.5 파라미터 효율적 파인 튜닝(PEFT)6.2.6 축소된 정밀도로 작업하기6.2.7 전체 코드 정리
6.2 파인 튜닝: 전체 예제 (4/4)
6.3 파인 튜닝 데이터셋 (1/2)
6.3.1 공개 지시문 튜닝 데이터셋 활용
6.3 파인 튜닝 데이터셋 (2/2)
6.3.2 LLM 기반 지시문 튜닝 데이터셋
6.4 마치며
chapter 7 고급 파인 튜닝 기법
7.1 지속적 사전 훈련 (1/2)
7.1.1 리플레이(메모리)7.1.2 파라미터 확장
7.1 지속적 사전 훈련 (2/2)
7.2 파라미터 효율적 파인 튜닝(PEFT) (1/2)
7.2.1 새로운 파라미터 추가
7.2 파라미터 효율적 파인 튜닝(PEFT) (2/2)
7.2.2 하위 집합 기법
7.3 여러 모델 결합하기
7.3.1 모델 앙상블7.3.2 모델 융합7.3.3 어댑터 병합
7.4 마치며
chapter 8 정렬 훈련과 추론
8.1 정렬 훈련의 정의
8.2 강화 학습
8.2.1 인간 피드백의 형태8.2.2 RLHF 사례
8.3 환각
8.4 환각 완화 전략 (1/2)
8.4.1 자기 일관성8.4.2 검증의 사슬8.4.3 낭독
8.4 환각 완화 전략 (2/2)
8.4.4 환각을 해결하는 샘플링 방법8.4.5 층 대조를 통한 디코딩
8.5 인컨텍스트 환각
8.6 관련 없는 정보로 인한 환각
8.7 추론
8.7.1 연역적 추론8.7.2 귀납적 추론8.7.3 귀추적 추론8.7.4 상식적 추론
8.8 LLM에서 추론 유도하기
8.8.1 추론 개선을 위한 검증기8.8.2 추론 시간 계산
8.8.3 추론을 위한 파인 튜닝
8.9 마치며
chapter 9 추론 최적화
9.1 LLM 추론의 도전 과제
9.2 추론 최적화 기법
9.3 연산량 감소 기법 (1/2)
9.3.1 K-V 캐싱9.3.2 조기 종료
9.3 연산량 감소 기법 (2/2)
9.3.3 지식 증류
9.4 디코딩 가속화 기법
9.4.1 스페큘러티브 디코딩9.4.2 병렬 디코딩
9.5 저장 공간을 절약하는 기법
9.5.1 대칭 양자화9.5.2 비대칭 양자화
9.6 마치며
PART 3 LLM 애플리케이션 활용 패러다임
chapter 10 LLM과 외부 도구의 인터페이스
10.1 LLM 상호작용 패러다임
10.1.1 수동적 접근법10.1.2 명시적 접근법10.1.3 자율적 접근법
10.2 에이전트 정의
10.3 에이전트 기반 워크플로
10.4 에이전트 시스템 구성 요소 (1/5)
10.4.1 모델10.4.2 도구
10.4 에이전트 시스템 구성 요소 (2/5)
10.4.3 데이터 저장소
10.4 에이전트 시스템 구성 요소 (3/5)
10.4.4 에이전트 루프 프롬프트10.4.5 가드레일과 검증기
10.4 에이전트 시스템 구성 요소 (4/5)
10.4 에이전트 시스템 구성 요소 (5/5)
10.4.6 에이전트 오케스트레이션 소프트웨어
10.5 마치며
chapter 11 표현 학습과 임베딩
11.1 임베딩 소개
11.2 의미 검색
11.3 유사도 측정법
11.4 임베딩 모델 파인 튜닝
11.4.1 기본 모델11.4.2 훈련 데이터셋11.4.3 손실 함수
11.5 지시 임베딩
11.6 임베딩 크기 최적화
11.6.1 마트료시카 임베딩11.6.2 이진 및 정수 임베딩11.6.3 곱 양자화
11.7 청킹 (1/2)
11.7.1 슬라이딩 윈도 청킹11.7.2 메타데이터 인식 청킹11.7.3 레이아웃 인식 청킹11.7.4 의미적 청킹
11.7 청킹 (2/2)
11.7.5 지연 청킹
11.8 벡터 데이터베이스
11.9 임베딩 해석하기
11.10 마치며
chapter 12 검색 증강 생성(RAG)
12.1 RAG의 필요성
12.2 대표적인 RAG 활용 시나리오
12.3 검색 여부 판단하기
12.4 RAG 파이프라인 (1/6)
12.4.1 재작성
12.4 RAG 파이프라인 (2/6)
12.4.2 검색
12.4 RAG 파이프라인 (3/6)
12.4.3 리랭크
12.4 RAG 파이프라인 (4/6)
12.4.4 정제
12.4 RAG 파이프라인 (5/6)
12.4.5 삽입
12.4 RAG 파이프라인 (6/6)
12.4.6 생성
12.5 메모리 관리를 위한 RAG
12.6 RAG로 인컨텍스트 학습 예시 선택하기
12.7 모델 훈련에 RAG 활용하기
12.8 RAG의 한계
12.9 RAG 대 긴 컨텍스트
12.10 RAG 대 파인 튜닝
12.11 마치며
chapter 13 디자인 패턴과 시스템 아키텍처
13.1 다중 LLM 아키텍처
13.1.1 LLM 캐스케이드13.1.2 라우터13.1.3 작업 특화 LLM
13.2 프로그래밍 패러다임
13.2.1 DSPy13.2.2 LMQL
13.3 마치며
찾아보기 (1/3)
찾아보기 (2/3)
찾아보기 (3/3)

Content preview from 실무로 통하는 LLM 애플리케이션 설계

345

장

표현 학습과 임베딩

11.6

임베딩 크기 최적화

많은 애플리케이션은 수십억 개의 임베딩을 생성해야 합니다. 앞서 살펴봤듯이, 현대 임베딩은

때때로 수천 개의 차원을 가지기도 합니다. 각 차원이

float32

로 표현된다면 차원당

바이트의

메모리가 필요합니다. 따라서

768

개 차원을 가진

all

mpnet

base

모델에서 생성된

억

개 벡터를 저장하려면 거의

300GB

의 메모리가 필요합니다.

일반적으로 한 문장은

토큰을 넘지 않지만, 이를

768

차원의 벡터로 표현하는 경우가 흔합니

다. 과연

개의 토큰을 표현하는 데

768

차원이 필요할까요? 현실적으로는 임베딩 학습이 매

우 비효율적이어서 많은 차원이 실제로는 크게 도움이 되지 않을 때가 많습니다.

따라서 임베딩 크기를 최적화하고 저장과 계산 요구 사항을 줄이기 위해 여러 임베딩 잘라내기

및 양자화 접근법이 개발되었습니다. 수백만 개 이상의 벡터가 있는 환경에서 작업한다면 이런

기법이 매우 유용할 가능성이 높습니다. 이런 접근법 중 몇 가지를 살펴보겠습니다.

11.6.1

마트료시카 임베딩

마트료시카

Matryoshka

임베딩은 러시아 전통 인형인 마트료시카

에서 이름을 따왔습니다. 이 인

형들은 크기가 작아지는 순서로 서로의 안에 들어가는 구조로 만들어집니다. 마트료시카 임베

딩은

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791169214384

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

실무로 통하는 LLM 애플리케이션 설계

by 수하스 파이, 박조은

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

What Successful Project Managers Do

How to Overcome a Power Deficit

Tips for Designing Effective Presentation Slide Decks

Relational Power Is the New Currency of Hybrid Work

Publisher Resources