domingo, 17 de fevereiro de 2008

Sobre as pesquisas no Google - Parte 1

A últimas notícias envolvendo a atriz e cantora Preta Gil e o Google me motivaram a postar algumas informações sobre as pesquisas no Google e termos famigerados como PageRank e Google Bombs. Para quem não sabe, o advogado da artista, dr. Ricardo Brajterman, informou neste dia 15 que pretende abrir um processo contra o Google por danos morais na próxima segunda-feira, dia 18. O motivo é que, ao se pesquisar por atriz gorda no Google Imagens, o site sugere experimetar também preta gil, o que seria uma atitude preconceituosa. Não vamos questionar aqui se a associação entre Preta Gil e atriz gorda é ofensiva ou não, mas apenas considerar como funcionam as pesquisas do Google. Se desejar consultar a notícia, veja:

Folha Online - Informática - Preta Gil aciona advogado por suposta ofensa no Google


G1 > Tecnologia - Busca coloca Preta Gil contra o Google

Primeiramente, na minha opinião, a atitude do advogado ao acusar o Google demonstra a sua ignorância a respeito dos mecanismos de busca. Ora, o resultado da pesquisa não é endossado pelo Google nem deve ser interpetado como se a empresa estivesse dizendo: "Pesquise também fotos da Preta Gil porque ela é uma atriz gorda". São os computadores que tentam determinar os resultados mais relevantes. E eles não sabem que Preta Gil é uma atriz nem qual é o seu peso (nem são obrigados a saber...). Na verdade, computadores não sabem de nada, são só computadores!

O PageRank

O Google procura ordenar a pesquisa de acordo com a relevância do site. Seu principal meio de classificar as páginas é o Page Rank. De uma maneira simples, podemos dizer que este algoritmo determina a relevância de um site por meio da quantidade de páginas que contém links apontando para ele. Mas ele também leva em conta a relevância destas páginas e a quantidade de outros links contidos nela. Quer dizer, o Page Rank entende (é claro que é força de expressão; PageRank não tem vida própria e, portanto, não entende de nada...) que quanto mais sites citarem o seu, mais importante ele é! E que quanto mais importantes forem estas páginas mais digno de nota é a sua. Além disso, quanto menos links constarem nestas páginas (ou seja, quanto maior a exclusividade com que a sua página é citada), mais "exclusivo" é o seu site e, portanto, maior a sua classificação.

O algoritmo é o seguinte:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

onde

PR() é o PageRank da página entre parênteses;
A é a sua página;
d é um fator que, normalmente é igual a 0,85;
T1...Tn são as páginas que citam a sua, sendo n a quantidade de páginas;
C() é quantidade de links externos existentes na página entre parênteses.

Traduzindo, o PageRank da página A é igual a o,15 mais a 0,85 vezes a somatória dos PageRanks individuais de cada página que cita a sua, cada um dividido pela respectiva quantidade de links externos.

Na prática, não se calculam todos PR(Tn), o que levaria a um círculo infinito de cálculos. Ao contrário, realiza-se uma iteração de cáculos iniciando por valores de PR estimados (partindo-se do princípio de que o PR médio de todas as páginas é 1.0) e que vão sendo atualizados a cada iteração até que seus valores se "estabilizem" razoavelmente (permanecendo apenas aproximados, não obstante).

Alguns pontos a ressaltar:

- O PR é calculado para uma página individualmente, não para o site todo;
- O PR leva em consideração somente links em páginas diferentes, portanto não adianta criar um site laranja com milhares de links para a sua página (pelo contrário, o Google tem um mecanismo para detectar essas falcatruas e acaba eliminando o site do seu índice);
- O resultado do PR está em escala logarítmica. Assim, a diferença entre o PR4 e o PR5 é de 5 a 10 vezes maior que a diferença entre o PR3 e o PR4 e assim por diante;
- O PageRank não é o único critério para classificação de uma pesquisa, o que quer dizer que um PR alto não implica necessariamente uma posição alta de uma busca.
- Conteúdo ilegal e práticas de design não aprovadas em Google’s quality guidelines resultam em banimento do seu site. O mesmo se dá com links para sites com tais conteúdos.
- O PR não é atualizado incessantemente, mas leva cerca de dois meses.

Consulte as fontes (em inglês) para mais detalhes. Cabe observar que no segundo link há uma série de excelentes referências dignas de serem lidas a fim de se entender melhor o algoritmo do PageRank:

http://www.ianrogers.net/google-page-rank/

http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/

Desta vez eu fico por aqui. Na próxima, abordarei outras questões referentes às buscas.

Até...