8
Индексатор
На текущий момент мы создали базового поискового робота;
следующая часть, над которой будем работать, — индекс. В кон-
тексте веб-поиска индекс представляет собой структуру данных,
позволяющую искать поисковый термин и находить страницы,
где он появляется. Кроме того, мы хотели бы знать, сколько
раз поисковый термин встречается на каждой странице, что
поможет определить страницы, наиболее релевантные этому
термину.
Например, если пользователь вводит поисковые термины Java
и программирование, мы будем искать оба поисковых термина
и получим два набора страниц. Набор со словом Java будет
включать страницы об острове Ява, марке кофе и языке про-
граммирования. В набор со словом программирование войдут
страницы о разных языках программирования, ...