
214 Глава 8. Придание привлекательного вида: макет, стилевое оформление сайта
Рис. 8.5. Граф соавторства
Создание сбалансированных наборов данных для обучения
и тестирования
Решая проблему предсказания связей, мы пытаемся предугадать воз-
никновение будущих связей. Наш набор данных хорошо подходит для этой
задачи, потому что мы можем воспользоваться датами публикации статей.
Нужно выяснить, какой год будем использовать в качестве границы для
разделения данных на выборки для обучения и тестирования. Мы будем
обучать нашу модель на всех данных до этого года, а затем тестировать ее
на связях, возникших позже.
Давайте начнем с выяснения, ког ...