Capitolo 17. Servire LLMs con Ollama
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Abbiamo esplorato come utilizzare i trasformatori per scaricare un modello e mettere insieme una semplice pipeline che ti permette di utilizzarlo per l'inferenza o la messa a punto. Tuttavia, sarei negligente se non ti mostrassi il progetto open source Ollama, che unisce il tutto fornendoti un ambiente che ti permette di avere un wrapper completo intorno a un LLM con il quale puoi chattare nel tuo terminale o utilizzare un server a cui puoi inviare un HTTP POST e leggere l'output.
Tecnologie come Ollama saranno l'avanguardia della prossima generazione di LLMs, che ti permetteranno di avere server dedicati all'interno del tuo data center o processi dedicati sul tuo computer. Questo li renderà completamente privati per te.
Ollama è un progetto open source che semplifica il processo di download, esecuzione e gestione di LLMs sul tuo computer. Gestisce anche requisiti difficili non funzionali, come la gestione della memoria e l'ottimizzazione dei modelli, e fornisce interfacce standardizzate per l'interazione, come la possibilità di effettuare HTTP POST ai tuoi modelli.
Ollama è uno strumento strategico da tenere in considerazione perché colma il divario tra i servizi di terze parti basati sul cloud come GPT, Cloud e Gemini e i servizi distribuiti localmente. Go va oltre la fornitura di un ambiente di sviluppo ...