book

실무로 통하는 LLM 애플리케이션 설계

Name: 실무로 통하는 LLM 애플리케이션 설계
Author: 수하스 파이
ISBN: 9791169214384

by 수하스 파이, 박조은

October 2025

Intermediate

424 pages

10h 19m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

헌사
지은이·옮긴이 소개
베타리더의 한마디
추천사
옮긴이의 말
이 책에 대하여
목차 (1/2)
목차 (2/2)
PART 1 LLM의 구성 요소
chapter 1 LLM의 개념과 첫걸음

1.1 LLM의 정의
1.2 LLM의 간략한 역사
1.2.1 초창기1.2.2 현대 LLM 시대
1.3 LLM의 영향
1.4 기업 내 LLM 활용
1.5 프롬프팅 (1/2)
1.5.1 제로샷 프롬프팅1.5.2 퓨샷 프롬프팅1.5.3 사고의 사슬 프롬프팅
1.5 프롬프팅 (2/2)
1.5.4 프롬프트 체이닝1.5.5 적대적 프롬프팅
1.6 API를 통한 LLM 접근 방법
1.7 LLM의 강점과 한계
1.8 첫 번째 챗봇 프로토타입 만들기
1.9 프로토타입에서 제품화까지
1.10 마치며
chapter 2 사전 훈련 데이터
2.1 LLM을 만드는 구성 요소
2.2 사전 훈련 데이터 요구 사항
2.3 대표적인 사전 훈련 데이터셋
2.4 합성 사전 훈련 데이터
2.5 훈련 데이터 전처리 (1/5)
2.5.1 데이터 필터링 및 정제
2.5 훈련 데이터 전처리 (2/5)
2.5.2 양질의 문서 선택
2.5 훈련 데이터 전처리 (3/5)
2.5.3 중복 제거2.5.4 개인식별정보(PII) 제거
2.5 훈련 데이터 전처리 (4/5)
2.5 훈련 데이터 전처리 (5/5)
2.5.5 훈련 데이터셋 정화2.5.6 데이터 혼합
2.6 사전 훈련 데이터가 후속 작업에 미치는 영향
2.7 사전 훈련 데이터셋의 편향과 공정성 문제
2.8 마치며
chapter 3 어휘와 토큰화
3.1 어휘
3.2 토크나이저
3.3 토큰화 파이프라인 (1/2)
3.3.1 정규화3.3.2 사전 토큰화3.3.3 토큰화3.3.4 바이트 페어 인코딩
3.3 토큰화 파이프라인 (2/2)
3.3.5 워드피스3.3.6 특수 토큰
3.4 마치며
chapter 4 아키텍처와 학습 목표
4.1 기본 개념
4.2 의미 표현하기
4.3 트랜스포머 아키텍처 (1/2)
4.3.1 셀프 어텐션
4.3 트랜스포머 아키텍처 (2/2)
4.3.2 위치 인코딩4.3.3 피드포워드 네트워크4.3.4 층 정규화
4.4 손실 함수
4.5 내재적 모델 평가
4.6 트랜스포머 백본4.6.1 인코더 전용 아키텍처4.6.2 인코더-디코더 아키텍처4.6.3 디코더 전용 아키텍처4.6.4 전문가 혼합 구조
4.7 학습 목표 (1/3)
4.7.1 전체 언어 모델링
4.7 학습 목표 (2/3)
4.7.2 프리픽스 언어 모델링4.7.3 마스크 언어 모델링
4.7 학습 목표 (3/3)
4.7.4 더 우수한 학습 목표
4.8 사전 훈련 모델
4.9 마치며
PART 2 LLM 활용하기
chapter 5 사용 목적에 맞게 LLM 활용하기
5.1 LLM 생태계 탐색하기5.1.1 주요 LLM 제공자5.1.2 모델 종류
5.1.3 오픈 소스 LLM
5.2 적합한 LLM을 선택하는 방법 (1/2)
5.2.1 오픈 소스 LLM과 독점 LLM5.2.2 LLM 평가
5.2 적합한 LLM을 선택하는 방법 (2/2)
5.3 LLM 로딩 방법
5.3.1 허깅 페이스 accelerate5.3.2 Ollama
5.3.3 LLM 추론 API
5.4 디코딩 전략5.4.1 탐욕적 디코딩5.4.2 빔 서치5.4.3 top-k 샘플링5.4.4 top-p 샘플링
5.5 LLM에서 추론 실행하기
5.6 구조화된 출력
5.7 모델 디버깅 및 해석 가능성
5.8 마치며
chapter 6 파인 튜닝
6.1 파인 튜닝의 필요성
6.2 파인 튜닝: 전체 예제 (1/4)
6.2.1 학습 알고리즘 파라미터
6.2 파인 튜닝: 전체 예제 (2/4)
6.2.2 메모리 최적화 파라미터6.2.3 정규화 파라미터
6.2 파인 튜닝: 전체 예제 (3/4)
6.2.4 배치 크기6.2.5 파라미터 효율적 파인 튜닝(PEFT)6.2.6 축소된 정밀도로 작업하기6.2.7 전체 코드 정리
6.2 파인 튜닝: 전체 예제 (4/4)
6.3 파인 튜닝 데이터셋 (1/2)
6.3.1 공개 지시문 튜닝 데이터셋 활용
6.3 파인 튜닝 데이터셋 (2/2)
6.3.2 LLM 기반 지시문 튜닝 데이터셋
6.4 마치며
chapter 7 고급 파인 튜닝 기법
7.1 지속적 사전 훈련 (1/2)
7.1.1 리플레이(메모리)7.1.2 파라미터 확장
7.1 지속적 사전 훈련 (2/2)
7.2 파라미터 효율적 파인 튜닝(PEFT) (1/2)
7.2.1 새로운 파라미터 추가
7.2 파라미터 효율적 파인 튜닝(PEFT) (2/2)
7.2.2 하위 집합 기법
7.3 여러 모델 결합하기
7.3.1 모델 앙상블7.3.2 모델 융합7.3.3 어댑터 병합
7.4 마치며
chapter 8 정렬 훈련과 추론
8.1 정렬 훈련의 정의
8.2 강화 학습
8.2.1 인간 피드백의 형태8.2.2 RLHF 사례
8.3 환각
8.4 환각 완화 전략 (1/2)
8.4.1 자기 일관성8.4.2 검증의 사슬8.4.3 낭독
8.4 환각 완화 전략 (2/2)
8.4.4 환각을 해결하는 샘플링 방법8.4.5 층 대조를 통한 디코딩
8.5 인컨텍스트 환각
8.6 관련 없는 정보로 인한 환각
8.7 추론
8.7.1 연역적 추론8.7.2 귀납적 추론8.7.3 귀추적 추론8.7.4 상식적 추론
8.8 LLM에서 추론 유도하기
8.8.1 추론 개선을 위한 검증기8.8.2 추론 시간 계산
8.8.3 추론을 위한 파인 튜닝
8.9 마치며
chapter 9 추론 최적화
9.1 LLM 추론의 도전 과제
9.2 추론 최적화 기법
9.3 연산량 감소 기법 (1/2)
9.3.1 K-V 캐싱9.3.2 조기 종료
9.3 연산량 감소 기법 (2/2)
9.3.3 지식 증류
9.4 디코딩 가속화 기법
9.4.1 스페큘러티브 디코딩9.4.2 병렬 디코딩
9.5 저장 공간을 절약하는 기법
9.5.1 대칭 양자화9.5.2 비대칭 양자화
9.6 마치며
PART 3 LLM 애플리케이션 활용 패러다임
chapter 10 LLM과 외부 도구의 인터페이스
10.1 LLM 상호작용 패러다임
10.1.1 수동적 접근법10.1.2 명시적 접근법10.1.3 자율적 접근법
10.2 에이전트 정의
10.3 에이전트 기반 워크플로
10.4 에이전트 시스템 구성 요소 (1/5)
10.4.1 모델10.4.2 도구
10.4 에이전트 시스템 구성 요소 (2/5)
10.4.3 데이터 저장소
10.4 에이전트 시스템 구성 요소 (3/5)
10.4.4 에이전트 루프 프롬프트10.4.5 가드레일과 검증기
10.4 에이전트 시스템 구성 요소 (4/5)
10.4 에이전트 시스템 구성 요소 (5/5)
10.4.6 에이전트 오케스트레이션 소프트웨어
10.5 마치며
chapter 11 표현 학습과 임베딩
11.1 임베딩 소개
11.2 의미 검색
11.3 유사도 측정법
11.4 임베딩 모델 파인 튜닝
11.4.1 기본 모델11.4.2 훈련 데이터셋11.4.3 손실 함수
11.5 지시 임베딩
11.6 임베딩 크기 최적화
11.6.1 마트료시카 임베딩11.6.2 이진 및 정수 임베딩11.6.3 곱 양자화
11.7 청킹 (1/2)
11.7.1 슬라이딩 윈도 청킹11.7.2 메타데이터 인식 청킹11.7.3 레이아웃 인식 청킹11.7.4 의미적 청킹
11.7 청킹 (2/2)
11.7.5 지연 청킹
11.8 벡터 데이터베이스
11.9 임베딩 해석하기
11.10 마치며
chapter 12 검색 증강 생성(RAG)
12.1 RAG의 필요성
12.2 대표적인 RAG 활용 시나리오
12.3 검색 여부 판단하기
12.4 RAG 파이프라인 (1/6)
12.4.1 재작성
12.4 RAG 파이프라인 (2/6)
12.4.2 검색
12.4 RAG 파이프라인 (3/6)
12.4.3 리랭크
12.4 RAG 파이프라인 (4/6)
12.4.4 정제
12.4 RAG 파이프라인 (5/6)
12.4.5 삽입
12.4 RAG 파이프라인 (6/6)
12.4.6 생성
12.5 메모리 관리를 위한 RAG
12.6 RAG로 인컨텍스트 학습 예시 선택하기
12.7 모델 훈련에 RAG 활용하기
12.8 RAG의 한계
12.9 RAG 대 긴 컨텍스트
12.10 RAG 대 파인 튜닝
12.11 마치며
chapter 13 디자인 패턴과 시스템 아키텍처
13.1 다중 LLM 아키텍처
13.1.1 LLM 캐스케이드13.1.2 라우터13.1.3 작업 특화 LLM
13.2 프로그래밍 패러다임
13.2.1 DSPy13.2.2 LMQL
13.3 마치며
찾아보기 (1/3)
찾아보기 (2/3)
찾아보기 (3/3)

Content preview from 실무로 통하는 LLM 애플리케이션 설계

349

장

표현 학습과 임베딩

원래

float32

벡터는 이제 청크들이 속한 클러스터에 해당하는 클러스터 식별자 목록으로 나타

낼 수 있습니다.

청크 크기가 클수록 압축률이 높아집니다. 따라서 벡터가

개의 청크로 나뉜다면 결과 임베딩

은 단

개의 차원만 가질 것입니다.

int8

이나 이진 양자화와 달리 곱 양자화는 벡터를 나타내

는 데 필요한 차원 수도 줄입니다. 하지만 성능 저하는 더 큽니다. 비용, 성능, 속도와 같은 기

준에 대한 상대적 우선순위를 결정해 양자화 기법을 선택하세요.

TIP

저장 공간을 위한 임베딩 최적화는 성능 저하를 수반합니다. 하지만 문서 코퍼스에 중복 정보가 많다면, 일반적

인 사용자 질의에 대한 답변을 여러 문서에서 찾을 수 있어 사용자가 이런 성능 저하를 느끼지 못할 수도 있습

니다.

연습 문제 ●●●

코히어의 임베딩 모델로 인코딩된 위키백과 임베딩

을 다운로드하고 클러스터 수를

256

으로

설정해 곱 양자화를 구현하세요. 곱 양자화를 지원하는

Qdrant

같은 벡터 데이터베이스를 사용

할 수도 있습니다. 다양한 청크 크기를 실험해 보세요. 가장 큰 성능 저하가 어디서 나타나나요?

곱 양자화를 위한 유사도 점수 계산 함수도 구현해 보세요.

임베딩 기반 검색을 실제로 구현하는 다양한 기법을 살펴봤으니, 다음으로는 서로 다른 벡터로 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791169214384

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

실무로 통하는 LLM 애플리케이션 설계

by 수하스 파이, 박조은

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

What Successful Project Managers Do

How to Overcome a Power Deficit

Tips for Designing Effective Presentation Slide Decks

Relational Power Is the New Currency of Hybrid Work

Publisher Resources