Capitolo 9. Ottenere i dati
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Per scriverlo ci sono voluti tre mesi; per concepirlo, tre minuti; per raccogliere i dati in esso contenuti, tutta la mia vita.
F. Scott Fitzgerald
Per essere uno scienziato dei dati hai bisogno di dati. In effetti, come scienziato dei dati passerai una parte imbarazzante del tuo tempo ad acquisire, pulire e trasformare i dati. In caso di necessità, puoi sempre digitare tu stesso i dati (o se hai dei tirapiedi, farli fare a loro), ma di solito questo non è un buon uso del tuo tempo. In questo capitolo vedremo diversi modi per inserire i dati in Python e nei formati giusti.
stdin e stdout
Se esegui i tuoi script Python dalla riga di comando, puoi inviare i dati attraverso di essi utilizzando sys.stdin e sys.stdout. Ad esempio, ecco uno script che legge le righe di testo e le restituisce in base a un'espressione regolare:
# egrep.pyimportsys,re# sys.argv is the list of command-line arguments# sys.argv[0] is the name of the program itself# sys.argv[1] will be the regex specified at the command lineregex=sys.argv[1]# for every line passed into the scriptforlineinsys.stdin:# if it matches the regex, write it to stdoutifre.search(regex,line):sys.stdout.write(line)
Ed eccone uno che conta le righe che riceve e poi scrive il conteggio:
# line_count.pyimportsyscount=0forlineinsys.stdin:count ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access