Capítulo 15. Projetando um Web Crawler e um Mecanismo de Pesquisa
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Tu planeaste uma reunião com os teus entes queridos durante a época festiva. Adoras cozinhar e decidiste cozinhar tudo sozinho, mas não tens as receitas dos pratos que queres preparar. Qual é a melhor solução possível? Podias perguntar aos teus amigos se têm as receitas ou procurar em livros de receitas, mas uma solução simples e eficaz é utilizar a pesquisa no Google. O Google procura em toda a Internet e encontra os melhores resultados sobre como preparar um prato específico. Como é que o Google percorre um mar tão vasto de informações e encontra a resposta perfeita? Neste capítulo, vamos tentar perceber isso, analisando a arquitetura de tais sistemas de pesquisa.
A um nível elevado, todo o sistema consiste em dois subsistemas: um rastreador da Web e um motor de pesquisa, como se mostra na Figura 15-1. Um Web crawler é essencialmente um software responsável por rastrear o conteúdo da Web. O conteúdo da Internet está a crescer exponencialmente e os web crawlers precisam de rastrear regularmente o conteúdo para manter os resultados mais actualizados. O motor de pesquisa está em cima do conteúdo acumulado pelos Web crawlers e armazena-o de forma a poder procurar palavras-chave pesquisadas pelo utilizador no conteúdo e apresentar os resultados mais úteis.
Com este conhecimento básico, vamos começar ...