
Применение машинного обучения для смыслового анализа текста
265
>>> vect = HashingVectorizer(decode_error='ignore',
... n_features=2**21,
... preprocessor=None,
... tokenizer=tokenizer)
>>> clf = SGDClassifier(loss='log', random_state=1)
>>> doc_stream = stream_docs(path='movie_data.csv')
Выполнив приведенный код, мы инициализировали
HashingVectorizer
с помощью функ-
ции
tokenizer
и установили количество признаков равным
2**21
. Кроме того, мы по-
вторно инициализировали классификатор логистической регрессии, установив для па-
раметра потерь
SGDClassifier
значение
'log'
. Заметьте, что, выбирая большое количество
признаков в
Has