Capítulo 4. Classificação de textos
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Uma das mais recentes utilizações da classificação binária é a análise de sentimentos, que examina uma amostra de texto, como uma crítica de um produto, um tweet ou um comentário deixado num sítio Web, e atribui-lhe uma pontuação numa escala de 0,0 a 1,0, em que 0,0 representa um sentimento negativo e 1,0 um sentimento positivo. Uma avaliação como "ótimo produto a um ótimo preço" pode ter uma pontuação de 0,9, enquanto "produto muito caro que mal funciona" pode ter uma pontuação de 0,1. A pontuação é a probabilidade de o texto expressar um sentimento positivo. Os modelos de análise de sentimentos são difíceis de construir algoritmicamente, mas são relativamente fáceis de criar com a aprendizagem automática. Para ver exemplos de como a análise de sentimentos é utilizada atualmente nas empresas, consulta o artigo "8 Sentiment Analysis Real-World Use Cases" de Nicholas Bianchi.
Sentimento análise é um exemplo de uma tarefa que envolve a classificação de dados textuais em vez de dados numéricos. Como a aprendizagem automática trabalha com números, é necessário converter o texto em números antes de treinar um modelo de análise de sentimentos, um modelo que identifique e-mails de spam ou qualquer outro modelo que classifique texto. Uma abordagem comum é construir uma tabela de frequências de palavras chamada saco de palavras. O Scikit-Learn ...