15
Сбор данных
в «Википедии»
В этой главе я представляю решение предыдущего упражне-
ния и анализирую эффективность алгоритмов индексиро-
вания в Интернете. Затем мы создадим простого поискового
робота.
Индексатор на основе Redis
В моем решении два вида структур хранятся в Redis:
для каждого поискового термина есть URLSet, который пред-
ставляет собой set с URL базы Redis, содержащими этот
термин;
для каждого URL предусмотрен TermCounter, являющийся
hash в Redis, сопоставляющий каждый поисковый термин
с количеством его появлений.