O Google nasceu com uma missão ambiciosa, "Organizar a informação mundial e torná-la universalmente acessível e útil". E até o momento parece que estão cumprindo bem tal missão. O mais famoso produto da empresa, o Google Pesquisa, tem uma funcionalidade primordial na vida de grande parte da população. E aqueles que não as utilizam são beneficiados indiretamente por serviços.

Google Pesquisa - Crawling and Indexing (rastreamento e indexação)

A pesquisa começa na web composta de mais de 60 trilhões de páginas e está em constante crescimento. Além dessas trilhões de páginas, a busca acontece também em dados com textos de milhões de livros de várias bibliotecas e de outros parceiros. Isso significa que seguimos links página a página. Os proprietários dos sites escolhem se seus sites são "crawled" (rastreados).


www.google.com.br

"O motor de busca perfeito deve compreender exatamente o que você quer dizer e dar-lhe de volta exatamente o que você quer." Larry Page, coFundador e CEO. Pode parecer redundante essas palavras, mas não são quando estamos falando de situações como a em que o usuário entra no site para pesquisar algo que não tem certeza do que está pesquisando.

O Google navega na Web por meio da técnica de "CRAWLING". Resumidamente, essa técnica se inicia com uma URL para uma página inicial. Então está página é copiada, processada e repassada a um outro sistema que a indexa e resuma ou analisa seu conteúdo. Durante o processamento, os links nela contidos são colocados em uma lista de páginas a serem visitadas. Ao terminar a varredura, o crawler consulta a lista de páginas e repete o processo para uma nova URL.

Veja "How it all works by Matt Cutts" (como tudo funciona por Matt Cutts), divulgado no YouTube na página da Google.

Segue a tradução do vídeo acima para aqueles que preferirem uma leitura.

" (…) A primeira coisa a entender é que quando você faz uma busca no Google, você não está realmente buscando a web, você está buscando o índice do Google na web, ou pelo menos o quanto dessa podemos encontrar.

Fazemos isso com um software chamado aranha (ou spider). Os spiders começam a buscar algumas web pages, então eles seguem os links nas páginas e buscam as páginas para as quais esses links apontam, então acompanham todos os links nessas outras páginas e assim por diante, até que tenham indexado um bom pedaço da web - muitos milhões de páginas armazenadas em milhares de máquinas.

Agora vamos supor que eu queira saber o quão rápido um leopardo pode correr. Eu digito na minha busca: "velocidade corrida leopardo" e pressiono enter. Nosso software busca em nosso índice todas as páginas que incluem esses termos de busca. Nesse caso, existem centenas de milhares de resultados possíveis.Como o Google decide quais documentos eu realmente quero (fatores que influenciam o ranking)? Fazendo perguntas - mais de 200 delas.

Como:

  • Quantas vezes essa página contêm as palavras-chave?
  • As palavras aparecem no título, na URL, diretamente adjacentes?
  • Será que a página inclui sinônimos para essas palavras?
  • Esta página vem de um site de qualidade alta ou de qualidade baixa, até mesmo spammy?
  • Qual o Page Rank dessa página? Essa é uma fórmula criada por nossos fundadores Larry Page e Sergey Brin, que pontua as importância de uma página, baseado na quantidade de links externos que apontam para a mesma e quão importante esses links são.

Finalmente, nós combinamos todos esses fatores em conjunto para produzir uma pontuação geral para cada página, então enviamos o resultado da sua busca, cerca de meio segundo depois de você fazê-la. No Google assumimos o compromisso de entregar resultados úteis e imparciais seriamente. Nós nunca aceitamos pagamento para adicionar um site ao nosso índice, atualizá-lo com mais freqüência ou melhorar seu ranking.

Vamos dar uma olhada em meus resultados de pesquisa:

  • Cada entrada inclui um título
  • Uma URL
  • E um trecho do texto para me ajudar a decidir se esta página é o que estou procurando.

Vejo também:

  • Links para páginas semelhantes;
  • A versão mais atual daquela página armazenada pelo Google;
  • E pesquisas relacionadas, que eu talvez queira experimentar a seguir;
  • Ás vezes, ao lado direito e no topo, eu vejo anúncios.

Levamos nossa publicidade muito a sério também, tanto nosso compromisso de entregar a melhor audiência possível aos nossos anunciantes, como nosso esforço para mostrar apenas os anúncios que você realmente quer ver. Somos muitos cuidados para distinguir os anúncios do resultado de busca regular. Não mostraremos nenhum anúncio, caso não encontremos algum que irá ajudá-lo a encontrar a informação que está procurando - o que nesse caso, a velocidade máxima de um leopardo é de 60 milhas por hora".

Agora continuarei a falar do mecanismo de busca, e em outros artigos detalharei o Google Pesquisa sob outros aspectos.

O Google Pesquisa utiliza outros produtos da Google para complementar os resultados de suas buscas.

Graças à "Street View", pode-se também incluir informações do mundo físico. Resumidamente, Google Street View é um recurso do Google Maps e do Google Earth que disponibliza vistas panorâmicas de 360º permitindo que usuários vejam partes do mundo ao nível do solo. O Google Street View mostra fotos tiradas por frotas de carro e em áreas que não podem ser acessadas por carros são usadas as Google Bikes.

E o "Knowledge Graph" oferece melhores respostas através da organização de informações sobre pessoas reais , lugares e coisas. Resumidamente, Google Knowledge Graph é uma base de conhecimento do sistema de pesquisa da Google que visa melhorar os resultados da ferramenta de busca com informações de pesquisa semântica. Ele fornece informações estruturadas e detalhasdas sobre o tema, além de uma lista de links para outros sítios.O objetivo é que os usuários sejam capazes de usar essas informações para resolver sua consulta sem ter que navegar para outros sites e montar, eles próprios, a informação.Informação essa proviniente de várias fontes como Freebase, Wikipédia e a CIA World Factbook, bem como das próprias fontes internas do Google.

São mais de 100 milhões de gigabytes de dados analisados. E é mantido o controle de todo esse conteúdo por índice. O Google Pesquisa classifica as páginas por seu conteúdo e por outros fatores.

A vida útil de uma consulta no Google é menos de 1/2 segundo, e envolve algumas etapas até que o usuário possa de ver os resultados mais relevantes.

[galeria]72[/galeria]

É isso 

Esse artigo "Por dentro do Google Pesquisa - Parte 1"  Rastreamento e Indexação encerra por aqui. Vimos o que está por trás da pesquisa do mecanismo de busca do Google Pesquisa. Continuarei o tema com o artigo "Por dentro do Google Pesquisa - Parte 2" Algoritmo.

Leia também:

Enquanto você lia esse artigo, aproximadamente 1200 segundos, ou 20 minutos, 47.496.000 pesquisas foram realizadas no Google Pesquisa. O que nos dá, aproximadamente 39.580 pesquisas por segundo.

Fonte: InsideSearch