
Моделирование последовательных данных с помощью рекуррентных нейронных сетей
495
Подготовка данных отзывов на фильмы
В главе 8 мы предварительно обработали и очистили набор данных отзывов. Сейчас мы
сделаем то же самое. Но сначала установим
torchtext
(в апреле 2023 года была доступ-
на версия 0.15.1) с помощью команды:
pip install torchtext
после чего импортируем необходимые модули и считаем данные следующим образом:
>>> from torchtext.datasets import IMDB
>>> train_dataset = IMDB(split='train')
>>> test_dataset = IMDB(split='test')
Каждый набор состоит из 25 тыс. примеров, а каждый пример — из двух элементов:
метки тональности,