1.20. Klasyfikacja tekstu za pomocą analizatora bayesowskiego

Problem

Mając dany fragment tekstu, chcemy dokonać jego klasyfikacji — na przykład zdecydować, czy otrzymany list można potraktować jako spam, bądź czy zawarty w liście dowcip jest naprawdę śmieszny.

Rozwiązanie

Można w tym celu skorzystać w biblioteki Classifier Lucasa Carlsona, dostępnej w gemie classifier. W bibliotece tej znajduje się naiwny klasyfikator bayesowski oraz klasyfikator wykorzystujący bardziej zaawansowaną technikę ukrytego indeksowania semantycznego (LSI — Latent Semantic Indexing).

Interfejs naiwnego klasyfikatora bayesowskiego jest elementarny: tworzy się obiekt Classifier::Bayes z określeniem rodzaju klasyfikacji jako parametrem, po czym dokonuje się ...

Get Ruby. Receptury now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.