Rozdział 6. Wikipedia, algorytmy LDA i Spark NLP

Wraz z rosnącą w ostatnich latach ilością nieustrukturyzowanych danych tekstowych uzyskiwanie żądanych informacji staje się coraz trudniejsze. Jednak technologie językowe oferują potężne metody przetwarzania danych tekstowych i pozyskiwania szukanych informacji. W tym rozdziale wykorzystamy interfejs PySpark i bibliotekę Spark NLP (ang. Natural Language Processing, przetwarzanie języka naturalnego) do zaimplementowania jednej z takich metod: modelowania tematycznego. W szczególności wykorzystamy algorytm LDA (ang. Latent Dirichlet Allocation, ukryta alokacja Dirichleta) do zbadania zbioru artykułów Wikipedii.

Modelowanie tematyczne jest jedną z najczęstszych stosowanych metod przetwarzaniu języka ...

Get Zaawansowana analiza danych w PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Zaawansowana analiza danych w PySpark by Akash Tandon

Rozdział 6. Wikipedia, algorytmy LDA i Spark NLP

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly