Prefácio
Uma pergunta rápida para ti: Como é que podes distinguir um cientista de dados que realmente construiu coisas em produção de alguém que apenas brincou com os dados? Responde: Já se queimaram completamente com a qualidade dos dados. Qualquer pessoa que tenha realmente implementado dados não tem apenas uma cicatriz, mas cílios em todo o corpo devido a este problema.
Eis um dia típico na vida de uma equipa de ciência de dados. De manhã, um executivo sénior vê algo estranho num dashboard, pergunta se o número está certo e a equipa de dados passa as 4 horas seguintes a tentar descobrir a resposta. Finalmente, descobrem o engenheiro que se esqueceu de adicionar o mecanismo de rastreio correto. Mas agora já passa do meio-dia e a equipa ainda nem sequer chegou à sua longa lista de tarefas do dia! Ao sair do modo de combate a incêndios, é difícil fazer progressos em qualquer coisa interessante.
Outra forma de dizer isto é que deixamos sempre que o urgente se meta no caminho do importante. Mais perigoso é o facto de minarmos a confiança nos dados. As equipas de ciência de dados acabam por jogar à defesa e não ao ataque.
Já vi isto em primeira mão muitas vezes. No início da pandemia de COVID-19, pediram-me que ajudasse o estado da Califórnia a compreender o potencial impacto da doença. Era um momento de mãos à obra e tínhamos acesso a recursos e conjuntos de dados incríveis. No entanto, continuávamos a questionar os números básicos nos painéis de controlo, como o número de camas ...