Capítulo 5. Análise de texto
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Nos dois últimos capítulos, explorámos aplicações de datas e números com a análise de séries temporais e a análise de coortes. Mas os conjuntos de dados são muitas vezes mais do que apenas valores numéricos e marcas de tempo associadas. Desde atributos qualitativos a texto livre, os campos de caracteres estão muitas vezes carregados de informação potencialmente interessante. Embora as bases de dados sejam excelentes em cálculos numéricos, como contagem, soma e cálculo de médias, também são muito boas a efetuar operações em dados de texto.
Começarei este capítulo dando-te uma visão geral dos tipos de tarefas de análise de texto para as quais o SQL é bom, e daquelas para as quais outra linguagem de programação é uma melhor escolha. De seguida, apresento o nosso conjunto de dados de avistamentos de OVNIs. Depois, vamos entrar na codificação, cobrindo as caraterísticas e o perfil do texto, analisando os dados com SQL, fazendo várias transformações, construindo um novo texto a partir de partes e, finalmente, encontrando elementos dentro de blocos de texto maiores, incluindo com expressões regulares.
Porquê a análise de texto com SQL?
Entre os enormes volumes de dados gerados todos os dias, uma grande parte é constituída por texto: palavras, frases, parágrafos e até documentos mais longos. Os dados de texto utilizados para análise podem ...