sexta-feira, 14 de agosto de 2015

Funcionamento de um motor de busca

Funcionamento de um motor de busca


Genericamente, um motor de busca é composto por 5 componentes.
  • Batedores: descobrem e recolhem automáticamente conteúdos da web;
  • Repositório: armazena as páginas recolhidas;
  • Indexador: extrai as palavras das páginas armazenadas e cria índices para acelerar as pesquisas;
  • Ordenador: ordena as páginas que contenham os termos pesquisados por um utilizador de modo a que as mais relevantes sejam apresentadas nos primeiros lugares;
  • Apresentador: gere a interface de utilização do motor de busca.
Quando se cria uma página deve-se ter presente que esta terá de passar por várias fases de processamento antes que possa ser apresentada nos resultados de um motor de busca. Se a sua página não for processada correctamente em alguma destas fases poderá ser excluída dos resultados dos motores de busca.

Recolha

A partir de um conjunto inicial de URLs (raizes), os batedores do motor de busca iniciam uma recolha da web. O processo baseia-se em repetidamente recolher uma página, extrair os links para outras páginas e inseri-los para serem recolhidos.
Para garantir que as suas páginas são recolhidas é importante que efectue as submeta nos motores de busca. Apenas é necessário submeter a página de entrada do seu site, uma vez que os batedores encontrarão as restantes seguindo os links. Mesmo que decida submeter várias páginas do seu site, é muito provável que os motores de busca utilizem apenas a página de entrada como raíz, uma vez que um número muito grande de raizes dificulta o funcionamento dos batedores. Os motores de busca recolhem a web periodicamente. Por isso, após submeter a sua página terá de esperar algum tempo, poderão ser meses, até que ela seja recolhida e possa constar nos resultados do motor de busca. O tempo de espera varia consoante os motores de busca.
Por outro lado, mesmo que não submeta a sua página é possível que esta seja encontrada pelos batedores ao seguirem os links de outras páginas para a sua. Se não quiser que algumas das suas páginas sejam recolhidas por motores de busca utilize o Robots Exclusion Protocol ou a meta-tag ROBOTS.
Se o seu site contiver páginas que gerem spider traps, contendo por exemplo calendários online ou identificadores de sessão embutidos nos URLs, ao proibir a recolha destas páginas está a ajudar os motores de busca. Os motores de busca ao detectarem que um site contem uma spider trap podem considerá-lo hóstil e banirem-no das suas recolhas futuras.
Se as suas páginas não forem recolhidas, não poderão constar nos resultados de um motor de busca. Para garantir o sucesso da recolha é muito importante que cada uma das suas páginas seja referida por um URL único e que os links contidos nas páginas sejam facilmente extraídos. Os batedores têm dificuldade em extrair links de páginas que tenham sido criados utilizando as tecnologias Javascript ou Flash.

Armazenamento

Após a recolha ter terminado, toda a informação recolhida da web fica armazenada no repositório.
Os motores de busca têm de armazenar uma grande quantidade de informação recolhida da web para que possa ser posteriormente processada. Considerando a dimensão da web, todo o espaço é pouco, por isso o repositório comprime as páginas da web para poupar espaço.
É importante que as suas páginas não sejam demasiado grandes, pois poderão ser excluídas do repositório ou parcialmente cortadas.
O repositório suporta a funcionalidade de cache dos motores de busca, disponibilizando as páginas armazenadas mesmo que estas já não estejam online.

Indexação e ordenação

O indexador extrai as palavras contidas nas páginas armazenadas e constrói índices invertidos que irão permitir efectuar pesquisas rápidas. Se o indexador não conseguir extrair correctamente o texto de uma página, esta dificilmente constará nos resultados de uma pesquisa. Os indexadores têm dificuldade em extrair textos publicados como imagens, utilizando tecnologias como JavaScript, Flash ou outros formatos proprietários. Alguns motores de busca, consideram que o texto das âncoras dos links é descritivo das página apontadas. Assim sendo, conseguem obter alguns termos que descrevem o conteúdo de páginas, das quais não foi possível extrair qualquer texto. Quando estas páginas são retornadas como resultados de pesquisas, o excerto da página não aparece.
Num índice invertido, para cada palavra existe uma lista das páginas (URLs) onde esta ocorre. O problema é que na web cada palavra ocorre em milhões de páginas diferentes e efectuar pesquisas exaustivas sobre listas deste tamanho tornaria as pesquisas muito lentas.
A solução passa por fazer com que as páginas mais importantes estejam no inicio das listas. Assim sendo, podem-se pesquisar apenas as primeiras páginas de uma lista sem reduzir a qualidade dos resultados. Existem várias maneiras de calcular a importância de uma página, por exemplo:
  • Frequência de termos: as páginas mais importantes para uma palavra são as que a repetem mais vezes no texto;
  • PageRank: é um algoritmo matemático em que as páginas mais importantes são as que recebem o maior número de links ou links das páginas mais importantes;
  • Número de links: as páginas mais importantes são as que recebem o maior número de links;
  • tf-idf: calcula a importância da página combinando a frequência de um termo com a importância desse termo no conjunto de todas as páginas armazenadas;
  • Estrutura da página: a importância de uma página é dada pela localização de um termo na sua estrutura. Por exemplo, as páginas mais importantes são as que contêm o termo no titulo;
  • Análise de URLs: as páginas mais importantes são as que contêm os termos no URL que as refere.
Na prática, os algoritmos usados para determinar a importância de uma página combinam várias aproximações e variam frequentemente para evitarem manipulação de resultados por parte dos spammers. Os algoritmo de ordenação são um dos pontos chave do negócio dos motores de busca, por isso são mantidos secretos.
Conhecendo as várias técnicas existentes é possível criar páginas optimizadas para os motores de busca, mas o principal factor de sucesso de uma página é que disponibilize informação útil.
Se uma das suas páginas for importante, tenha cuidado em manter o URL dessa página. Se alterar o URL da página, todos os links de outros sites para a sua página ficarão quebrados e uma vez que o número de links recebidos é uma das métricas de importância de uma página, esta perderá importância.
Preserve os URLs das suas páginas.

Apresentação

O apresentador recebe os termos pesquisados pelos utilizadores, acede à informação dos índices e apresenta os resultados da pesquisa na forma de links para as páginas. No entanto, o motor de busca poderá estar a ser acedido através de um dispositivo com capacidades limitadas, como por exemplo um telemóvel, por isso certifique-se de que a sua página apresenta características que permitam ser facilmente acedidas em vários contextos de utilização.
É inútil que a sua página conste nos resultados de um motor de busca se os seus utilizadores não conseguirem visitá-la.
Comente…ABRAÇO E BOA SORTE
TERRY

Nenhum comentário:

Postar um comentário