sexta-feira, 22 de fevereiro de 2008

Sobre as Pesquisas no Google - Parte 2

As Googlebombs

Hoje iremos falar sobre as Google Bombs. Mas, afinal, o que é isso? É o que temos quando há vários links a uma determinada página usando o mesmo texto âncora. Então, quando se pesquisa por esse texto, a tal página aparece em primeiro lugar. Normalmente, é uma forma de se zombar de algo, ou mesmo de protestar contra algo. O termo Google Bomb começou a ser discutido por Adam Mathes, que estava fazendo uma experiência. Vocês podem conferir no link abaixo:

http://uber.nu/2001/04/06/

O objetivo dessa experiência era fazer uma brincadeira com um amigo seu, chamado Andy Pressman. Então, ele convidou seus leitores a criarem um site contendo o termo Andy talentless hack Pressman, de modo que a expressão "talentless hack" tivesse um link para o site de seu amigo. Em pouco tempo, ao se pesquisar por "talentless hack", o primeiro resultado era aquele site, mesmo não ocorrendo nele nenhuma vez a expressão pesquisada.

Da mesma maneira, criaram também algumas Google Bombs no Brasil: ao digitar "déspota cachaceiro" no Google, o primeiro resultado era a biografia do presidente Lula. Também "vergonha nacional" retornava o site do Senado.

No caso de Preta Gil, a Google Bomb um pouco diferente. O que aconteceu foi que diversos usuários combinaram de postar imagens no seu site associando as tags "atriz gorda" e "preta gil". Por isso que quando se digita a primeira, o Google passou a sugerir que se experimentasse também a segunda. Isso foi feito também com as tags "barbeiragem" e "mulher no volante", bem como "crack" e "maconha", esta última criando um efeito particularmente cômico, porque ao pesquisar imagens de "crack" o Google recomendava "experimente também: maconha".

A vida curta das Google Bombs

Deve-se lembrar que o Google alterou seu algoritmo para não mostrar um resultado se o site não contiver as palavras-chave pesquisadas. É possível burlar essa restrição usando palavras que ocorrem no site (num contexto diferente).

Em pouco tempo, a maioria das Google Bombs acaba naturalmente perdendo seu efeito. Com um crescente número de sites falando sobre uma nova Google Bomb, logo as pesquisas acabam apontando para esses sites em vez do site-alvo original.

Por isso, Preta Gil não deveria se perocupar com os resultados no Google. Aliás, a coisa só piorou para ela na última semana. Antes, apesar de sugerir o seu nome quando se pesquisava "atriz gorda", não apareciam fotos dela, pelo menos na primeira página. Agora o Google não sugere mais o seu nome, mas a primeira página está repleta de fotos suas!

Por hoje é só. Espero que tenham gostado e até a próxima!

domingo, 17 de fevereiro de 2008

Sobre as pesquisas no Google - Parte 1

A últimas notícias envolvendo a atriz e cantora Preta Gil e o Google me motivaram a postar algumas informações sobre as pesquisas no Google e termos famigerados como PageRank e Google Bombs. Para quem não sabe, o advogado da artista, dr. Ricardo Brajterman, informou neste dia 15 que pretende abrir um processo contra o Google por danos morais na próxima segunda-feira, dia 18. O motivo é que, ao se pesquisar por atriz gorda no Google Imagens, o site sugere experimetar também preta gil, o que seria uma atitude preconceituosa. Não vamos questionar aqui se a associação entre Preta Gil e atriz gorda é ofensiva ou não, mas apenas considerar como funcionam as pesquisas do Google. Se desejar consultar a notícia, veja:

Folha Online - Informática - Preta Gil aciona advogado por suposta ofensa no Google


G1 > Tecnologia - Busca coloca Preta Gil contra o Google

Primeiramente, na minha opinião, a atitude do advogado ao acusar o Google demonstra a sua ignorância a respeito dos mecanismos de busca. Ora, o resultado da pesquisa não é endossado pelo Google nem deve ser interpetado como se a empresa estivesse dizendo: "Pesquise também fotos da Preta Gil porque ela é uma atriz gorda". São os computadores que tentam determinar os resultados mais relevantes. E eles não sabem que Preta Gil é uma atriz nem qual é o seu peso (nem são obrigados a saber...). Na verdade, computadores não sabem de nada, são só computadores!

O PageRank

O Google procura ordenar a pesquisa de acordo com a relevância do site. Seu principal meio de classificar as páginas é o Page Rank. De uma maneira simples, podemos dizer que este algoritmo determina a relevância de um site por meio da quantidade de páginas que contém links apontando para ele. Mas ele também leva em conta a relevância destas páginas e a quantidade de outros links contidos nela. Quer dizer, o Page Rank entende (é claro que é força de expressão; PageRank não tem vida própria e, portanto, não entende de nada...) que quanto mais sites citarem o seu, mais importante ele é! E que quanto mais importantes forem estas páginas mais digno de nota é a sua. Além disso, quanto menos links constarem nestas páginas (ou seja, quanto maior a exclusividade com que a sua página é citada), mais "exclusivo" é o seu site e, portanto, maior a sua classificação.

O algoritmo é o seguinte:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

onde

PR() é o PageRank da página entre parênteses;
A é a sua página;
d é um fator que, normalmente é igual a 0,85;
T1...Tn são as páginas que citam a sua, sendo n a quantidade de páginas;
C() é quantidade de links externos existentes na página entre parênteses.

Traduzindo, o PageRank da página A é igual a o,15 mais a 0,85 vezes a somatória dos PageRanks individuais de cada página que cita a sua, cada um dividido pela respectiva quantidade de links externos.

Na prática, não se calculam todos PR(Tn), o que levaria a um círculo infinito de cálculos. Ao contrário, realiza-se uma iteração de cáculos iniciando por valores de PR estimados (partindo-se do princípio de que o PR médio de todas as páginas é 1.0) e que vão sendo atualizados a cada iteração até que seus valores se "estabilizem" razoavelmente (permanecendo apenas aproximados, não obstante).

Alguns pontos a ressaltar:

- O PR é calculado para uma página individualmente, não para o site todo;
- O PR leva em consideração somente links em páginas diferentes, portanto não adianta criar um site laranja com milhares de links para a sua página (pelo contrário, o Google tem um mecanismo para detectar essas falcatruas e acaba eliminando o site do seu índice);
- O resultado do PR está em escala logarítmica. Assim, a diferença entre o PR4 e o PR5 é de 5 a 10 vezes maior que a diferença entre o PR3 e o PR4 e assim por diante;
- O PageRank não é o único critério para classificação de uma pesquisa, o que quer dizer que um PR alto não implica necessariamente uma posição alta de uma busca.
- Conteúdo ilegal e práticas de design não aprovadas em Google’s quality guidelines resultam em banimento do seu site. O mesmo se dá com links para sites com tais conteúdos.
- O PR não é atualizado incessantemente, mas leva cerca de dois meses.

Consulte as fontes (em inglês) para mais detalhes. Cabe observar que no segundo link há uma série de excelentes referências dignas de serem lidas a fim de se entender melhor o algoritmo do PageRank:

http://www.ianrogers.net/google-page-rank/

http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/

Desta vez eu fico por aqui. Na próxima, abordarei outras questões referentes às buscas.

Até...

domingo, 10 de fevereiro de 2008

Começando...

Olá!

Sinta-se em casa!

Este é o Blog do Prof. Sandman, um espaço onde você pode tirar dúvidas sobre programação e encontrar curiosidades do mundo da informática. O blog está começando agora e por isso ainda não tem muita coisa (pra não dizer que ainda não tem nada...). A príncipio, pretendemos focar a atenção no ambiente Delphi. Em breve, teremos links para algumas vídeo-aulas gratuitas de programação.

Enquanto isso, para direcionar o nosso caminho, é fundamental o seu feedback. Queremos saber o que você espera ver no site, quais são suas dúvidas (e críticas também!). Que tal sugerir um assunto para uma vídeo-aula? Snita-se à vontade! Envie um e-mail para o nosso endereço eletrônico:

profsandman@gmail.com