
230
2
부
LLM 활용하기
NOTE
_
모델 훈련 이후 지시문 튜닝을 수행해야 한다면 왜 처음부터 지시문 튜닝 데이터셋으로 사전 훈련을
진행하지 않을까요? 실제로 그렇게 해도 되지만, 지시문 튜닝 데이터셋을 대규모로 구축하면서 품질을 유지하기
가 어려워서 잘 사용하지 않습니다.
그러나 대규모 공개 데이터셋이 나올 때까지 기다릴 필요는 없습니다. 지시문 튜닝 데이터를 사전 훈련 과정에
일부 혼합해 사용하기만 해도 성능 향상 효과가 있음이 확인된 바 있습니다.
40
연습 문제 ●●●
캐나다 의회 회의록 전체를 지시문 튜닝 데이터셋으로 변환해 보세요. 막막하게 들릴 수 있지만,
이 과정을 도와주는 유용한 라이브러리가 있습니다.
Bonito
41
는 조건 기반 과제 생성 모델이 내
장된 도구로, 비정형 텍스트를 지시문 튜닝 형식으로 자동 변환해 줍니다. 요약, 감정 분석, 질문
생성 등 다양한 작업을 지원합니다.
이 라이브러리를 사용해 의회 회의록 데이터로부터 지시문 튜닝 데이터셋을 만들어 보세요. 결
과 데이터셋의 품질은 어떤가요? 데이터셋의 다양성을 어떻게 더 향상할 수 있을까요?
6.4
마치며
이번 장에서는 복잡한 문제 해결을 위해
LLM
을 파인 튜닝해야 할 필요성을 강조했습니다. 파
인 튜닝 과정 전반을 자세히 살펴보면서 하이퍼파라미터를 선택할 때 발생하는 주요 트레이드 ...