Rozdział 6. Wikipedia, algorytmy LDA i Spark NLP

Wraz z rosnącą w ostatnich latach ilością nieustrukturyzowanych danych tekstowych uzyskiwanie żądanych informacji staje się coraz trudniejsze. Jednak technologie językowe oferują potężne metody przetwarzania danych tekstowych i pozyskiwania szukanych informacji. W tym rozdziale wykorzystamy interfejs PySpark i bibliotekę Spark NLP (ang. Natural Language Processing, przetwarzanie języka naturalnego) do zaimplementowania jednej z takich metod: modelowania tematycznego. W szczególności wykorzystamy algorytm LDA (ang. Latent Dirichlet Allocation, ukryta alokacja Dirichleta) do zbadania zbioru artykułów Wikipedii.

Modelowanie tematyczne jest jedną z najczęstszych stosowanych metod przetwarzaniu języka ...

Get Zaawansowana analiza danych w PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.