
320
3
부
LLM 애플리케이션 활용 패러다임
안전 가드레일
2
장에서 언급했듯이
LLM
은 주로 인간이 생성한 웹 텍스트로 훈련됩니다. 안타깝게도 인간이
생성한 텍스트의 상당 부분에는 유해하거나, 학대적이거나, 폭력적이거나, 음란한 내용이 포함
됩니다. 우리는
LLM
애플리케이션이 사용자의 안전을 침해하는 콘텐츠를 생성하는 것을 원하
지 않으며, 사용자가 모델을 오용해 안전하지 않은 콘텐츠를 생성하는 것도 원하지 않습니다.
정렬 훈련과 같은 기법을 사용해 모델이 유해한 콘텐츠를 생성할 가능성을 줄일 수는 있지만,
100
% 성공을 보장할 수는 없으므로 안전한 사용을 보장하려면 추론 시점에 가드레일을 도입
해야 합니다. 가드레일
Guardrails
12
과 엔비디아의 네모-가드레일
NeMo
-
Guardrails
13
같은 라이브러리,
Llama
Guard
14
와 같은 모델이 이러한 가드레일 설정을 쉽게 해 줍니다.
가드레일 라이브러리는
LLM
입력과 출력의 안전성과 유효성을 보장하는 많은 (그리고 계속
늘어나는) 데이터 검증기를 제공합니다. 다음은 주요 검증기들입니다.
●
PII
탐지 : 이 검증기는 입력과 출력 텍스트 모두에서 개인식별정보를 탐지하는 데 사용할 수 있습니다. 내부적
으로는 마이크로소프트 프레시디오
Presidio
15
가
PII
식별을 수행합니다.
●
프롬프트 ...