
260 Глава 8
ные алгоритмы стемминга также доступны в пакете NLTK (http://www.nltk.org/
api/nltk.stem.html).
Стемминг может создавать несуществующие слова (например,
'thu'
от слова
'thus'
), как показано в предыдущем примере. Альтернативный метод, называемый
лемматизацией, направлен на получение канонических (грамматически правиль-
ных) форм отдельных слов — так называемых лемм. Однако лемматизация является
более сложной и дорогостоящей операцией в вычислительном отношении по срав-
нению со стеммингом, и на практике было замечено, что переход от стемминга
к лемматизации почти не повышает эффективность классификации ...