17장. Ollama로 LLM 서비스하기
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
트랜스포머를 사용하여 모델을 다운로드하고 추론이나 미세 조정에 사용할 수 있는 간편한 파이프라인을 구성하는 방법을 살펴봤습니다. 하지만 이 모든 것을 하나로 묶어주는 오픈 소스 Ollama 프로젝트는 터미널에서 채팅하거나 HTTP POST를 통해 출력을 읽을 수 있는 서버로 사용할 수 있는 LLM에 대한 전체 래퍼를 제공하는 환경을 제공하므로 이 프로젝트를 소개하지 않았다면 아쉬웠을 것입니다.
Ollama와 같은 기술은 데이터 센터 내부에 전용 서버를 두거나 컴퓨터에 전용 프로세스를 두는 차세대 LLM의 선봉장이 될 것입니다. 이를 통해 완전히 비공개로 유지할 수 있습니다.
Ollama의 핵심은 오픈 소스 프로젝트로, 컴퓨터에서 LLM을 다운로드, 실행, 관리하는 과정을 간소화합니다. 또한 메모리 관리 및 모델 최적화와 같이 기능적으로 어려운 요구 사항도 처리하며, 모델에 대한 HTTP POST 기능과 같은 상호 작용을 위한 표준화된 인터페이스를 제공합니다.
또한 Ollama는 GPT, Claude, Gemini와 같은 Cloud 기반 타사 서비스와 로컬로 배포된 서비스 간의 격차를 해소하기 때문에 고려해야 할 핵심 전략 도구입니다. 단순히 로컬 개발 환경을 제공하는 것에서 나아가 자체 데이터 센터 내에서 여러 내부 사용자에게 서비스를 제공하는 데 사용할 수 있는 환경을 제공합니다.
로컬에서 모델을 실행하면 데이터의 완벽한 프라이버시를 보장하고 네트워크 지연 시간을 없애며 오프라인으로 작업할 수 있습니다. 이는 민감한 데이터나 일관되고 지연 시간이 짧은 응답이 필요한 애플리케이션이 포함된 시나리오에서 특히 중요합니다.
또한 Ollama는 점점 더 많은 인기 오픈 소스 모델 라이브러리를 지원하며, 특정 작업에 최적화된 다양한 전문 모델도 지원합니다. 각 모델은 Docker 컨테이너의 작동 방식과 유사한 방식으로 간단한 명령으로 가져와 실행할 수 있습니다. 이 플랫폼은 모델 정량화를 자동으로 처리하여 우수한 성능을 유지하면서 소비자 하드웨어에서 효율적으로 실행되도록 모델을 최적화합니다.
이 장에서는 Ollama 설치 및 시작하기, 특정 모델을 인스턴스화하고 사용하는 방법 살펴보기, 개인 정보를 보호하는 LLM 애플리케이션을 구축할 수 있는 RESTful API 살펴보기 등 세 가지 방법으로 Ollama를 살펴보겠습니다.
Ollama 시작하기
Ollama 프로젝트는 ollama.com에서 호스팅됩니다. 에서 매우 간단하게 시작할 수 있으며, 홈 화면에서 macOS, Linux, Windows용 다운로드 옵션을 제공합니다. Windows 버전을 사용하려면 WSL(하위 시스템 for Linux)이 필요하다는 점도 참고하세요. 이 장에서는 macOS 버전을 사용하고 있습니다.
웹사이트로 이동하면 친절한 다운로드 환영 메시지가 표시됩니다( 그림 17-1 참조).
그림 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access