Capitolo 4. Valutare i sistemi di intelligenza artificiale
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Un modello è utile solo se funziona per gli scopi che si prefigge. Devi valutare i modelli nel contesto della tua applicazione. Il Capitolo 3 illustra diversi approcci alla valutazione automatica. Questo capitolo spiega come utilizzare questi approcci per valutare i modelli per le tue applicazioni.
Questo capitolo è suddiviso in tre parti. Inizia con una discussione sui criteri che potresti utilizzare per valutare le tue applicazioni e su come questi criteri vengono definiti e calcolati. Ad esempio, molte persone si preoccupano del fatto che l'IA possa inventare i fatti: come viene rilevata la coerenza dei fatti? Come vengono misurate le capacità specifiche di un dominio come la matematica, la scienza, il ragionamento e la sintesi?
La seconda parte si concentra sulla selezione dei modelli. Dato il numero crescente di modelli di base tra cui scegliere, può sembrare opprimente scegliere il modello giusto per la tua applicazione. Sono stati introdotti migliaia di benchmark per valutare questi modelli secondo diversi criteri. Ci si può fidare di questi benchmark? Come si fa a scegliere quali benchmark utilizzare? Che ne dici delle classifiche pubbliche che aggregano più benchmark?
Il panorama dei modelli è ricco di modelli proprietari e di modelli open source. Una domanda che molti team ...