Capítulo 9. Obtener datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Para escribirlo, necesité tres meses; para concebirlo, tres minutos; para recopilar los datos que contiene, toda mi vida.
F. Scott Fitzgerald
Para ser un científico de datos necesitas datos. De hecho, como científico de datos pasarás una fracción vergonzosamente grande de tu tiempo adquiriendo, limpiando y transformando datos. En caso de apuro, siempre puedes teclear los datos tú mismo (o si tienes secuaces, hacer que lo hagan), pero normalmente esto no es un buen uso de tu tiempo. En este capítulo, veremos distintas formas de introducir datos en Python y en los formatos adecuados.
stdin y stdout
Si ejecutas tus scripts de Python en la línea de comandos, puedes canalizar datos a través de ellos utilizando sys.stdin
y sys.stdout
. Por ejemplo, aquí tienes un script que lee líneas de texto y escupe las que coinciden con una expresión regular:
# egrep.py
import
sys
,
re
# sys.argv is the list of command-line arguments
# sys.argv[0] is the name of the program itself
# sys.argv[1] will be the regex specified at the command line
regex
=
sys
.
argv
[
1
]
# for every line passed into the script
for
line
in
sys
.
stdin
:
# if it matches the regex, write it to stdout
if
re
.
search
(
regex
,
line
):
sys
.
stdout
.
write
(
line
)
Y aquí tienes uno que cuenta las líneas que recibe y luego escribe el recuento:
# line_count.py
import
sys
count
=
0
for
line
in
sys
.
stdin ...
Get Ciencia de datos desde cero, 2ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.