
60 | Rozdział 4: Naiwna klasyfikacja bayesowska
last_idx = first_idx + ngram - padding
ngrams.append (Tokenizer.pad (tokens[first_idx:last_idx], padding))
return ngrams
@staticmethod
def pad (tokens, padding):
padded_tokens = []
for i in range (padding):
padded_tokens.append (Tokenizer.NULL)
return padded_tokens + tokens
Gdy już mamy sposób naparsowanie e-maili idzielenie ich natokeny, możemy przejść
dozbudowania części bayesowskiej: modułu SpamTrainer.
SpamTrainer
Celem modułu SpamTrainer jest osiągnięcie trzech rzeczy:
• Przechowywanie danych uczących
• Budowanie klasykatora bayesowskiego
• Minimalizacja błędów przez sprawdzanie ...