Capítulo 9. Obtener datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Para escribirlo, necesité tres meses; para concebirlo, tres minutos; para recopilar los datos que contiene, toda mi vida.
F. Scott Fitzgerald
Para ser un científico de datos necesitas datos. De hecho, como científico de datos pasarás una fracción vergonzosamente grande de tu tiempo adquiriendo, limpiando y transformando datos. En caso de apuro, siempre puedes teclear los datos tú mismo (o si tienes secuaces, hacer que lo hagan), pero normalmente esto no es un buen uso de tu tiempo. En este capítulo, veremos distintas formas de introducir datos en Python y en los formatos adecuados.
stdin y stdout
Si ejecutas tus scripts de Python en la línea de comandos, puedes canalizar datos a través de ellos utilizando sys.stdin y sys.stdout. Por ejemplo, aquí tienes un script que lee líneas de texto y escupe las que coinciden con una expresión regular:
# egrep.pyimportsys,re# sys.argv is the list of command-line arguments# sys.argv[0] is the name of the program itself# sys.argv[1] will be the regex specified at the command lineregex=sys.argv[1]# for every line passed into the scriptforlineinsys.stdin:# if it matches the regex, write it to stdoutifre.search(regex,line):sys.stdout.write(line)
Y aquí tienes uno que cuenta las líneas que recibe y luego escribe el recuento:
# line_count.pyimportsyscount=0forlineinsys.stdin ...