Capitolo 5. Analisi del testo
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Negli ultimi due capitoli abbiamo esplorato le applicazioni di date e numeri con l'analisi delle serie temporali e l'analisi della coorte. Ma le serie di dati sono spesso più che semplici valori numerici e timestamp associati. Dagli attributi qualitativi al testo libero, i campi di caratteri sono spesso ricchi di informazioni potenzialmente interessanti. Sebbene i database eccellano nei calcoli numerici come il conteggio, la somma e la media, sono anche in grado di eseguire operazioni sui dati testuali.
Inizierò questo capitolo fornendo una panoramica dei tipi di attività di analisi del testo per cui SQL è adatto e di quelli per cui un altro linguaggio di programmazione è una scelta migliore. Poi presenterò il nostro set di dati sugli avvistamenti di UFO. Poi entreremo nel vivo della codifica, occupandoci delle caratteristiche e del profilo del testo, del parsing dei dati con SQL, delle varie trasformazioni, della costruzione di nuovo testo a partire da parti e infine della ricerca di elementi all'interno di blocchi di testo più grandi, anche con le espressioni regolari.
Perché l'analisi del testo con SQL?
Tra gli enormi volumi di dati generati ogni giorno, una buona parte è costituita da testo: parole, frasi, paragrafi e persino documenti più lunghi. I dati testuali utilizzati per l'analisi possono provenire ...