Logo

Entradas com Tags ‘cuil’

Cuil, a guerra do tamanho? – Parte II

Vistos os objectivos e propostas do Cuil, debrucemos-nos agora sobre a sua prestação.

A difícil missão  de filtrar e apresentar informação relevante

Voltando ao tamanho…

Os responsáveis do Cuil afirmam ser importante o tamanho do índice e defendem que se incluam sites de pequena dimensão. Todavia, o que se verifica é que o tamanho pode ser contraproducente. Quanto maior for o índice, mais tempo leva a actualizar essa informação – o Google usa tempos diferentes para actualizar páginas de notícias, por exemplo. Outra consequência lógica é a maior lentidão na resposta e a maior dificuldade em filtrar, ou seja, separar o trigo do joio. Isto, apesar das possibilidades tecnológicas estarem em evolução.

Porém, existe mérito no trabalho realizado pela equipa. Com muito poucos recursos humanos e com menos computadores, recolheram um número muito elevado de páginas.

O novo look e a preocupação com a privacidade

Acerca da forma de apresentação dos resultados em colunas, há quem goste e há quem ache que dificulta a leitura, precisamente o contrário do argumento utilizado pelos criadores. O que me parece indiscutível e positivo é a novidade e o assumir o risco da mudança. A personalização do interface é também um aspecto que soma pontos, embora não seja inovador, porque outros motores já o fazem desde há muito.

Discutindo a relevância dos resultados

Nesta área parece haver consenso nas reações quanto ao fraco desempenho do Cuil. Existem vários testemunhos, mas tomámos o teste apresentado na Online Tech Tips que utilizou a expressão “shipping seven” que se refere à futura versão do Microsoft Windows. Analisou a pertinência dos dez primeiros resultados nos vários motores de pesquisa que foram: Cuil – 10%; Google – 100%; Yahoo – 50%; Live Search – 60%; Ask – 0%. Em dez resultados, Cuil apresentou apenas um relacionado com o tema pesquisado.

Eu mesma realizei um teste simplório com o Cuil e o Google. Digitei a expressão “mastersid”, que se refere a um master da Universidade de Salamanca. Cuil não recuperou nos dez resultados uma única página relevante. Google apresentou como primeiro resultado um trabalho de um aluno realizado nesse curso e, na terceira posição, a página oficial do dito master. Curiosamente, o sistema do Cuil recuperou, e apresentou na página 4 de resultados, uma série de entradas  do site Tagzania que possuíam a etiqueta “mastersid”. Foi um teste realizado pelos alunos desse master para experimentar as etiquetas e conhecer Tagzania. Devo dizer que o endereço do master é “http://mastersid.usal.es”, ficando claro que o sistema valorizou mais as etiquetas que os URL e recuperou, neste caso, o menos relevante.

A fórmula utilizada pelo Cuil necessita de muito trabalho para chegar à precisão actual do Google. Ao fraco desempenho na relevância, junta-se a ausência de pesquisa vertical, tendo sido o aspecto mais criticado a impossibilidade de este motor pesquisar especificamente imagens. Finalmente, a opção de não usar IP ou cookies para obter padrões de uso pode comprometer desenvolvimentos futuros.

O sucesso de um bom motor de pesquisa está associado à combinação de várias técnicas, e excluir à partida algumas possibilidades tecnológicas, não é muito sensato. A política de privacidade agrada à sociedade internauta, mas apenas a breve trecho, porque se a ferramenta não é eficaz, não vai ser utilizada.

Panorama actual e tendências que se desenham nos motores de pesquisa

Cuil tem muito para desenvolver e outra coisa não seria de esperar, porque estamos a falar de escalas muito diferentes, quando comparamos as duas empresas: Cuil tem 30 empregados contra os 20000 de Google; opera há 2 anos, tendo apresentado publicamente o seu produto há menos de dois meses. Ora, Google leva uma década de andanças.

Apesar de uma tecnologia poder alterar completamente as peças no tabuleiro de xadrez, não parece que isso vá ocorrer com Cuil, pelo menos no imediato. Google guarda bem o segredo do seu PageRank e tem procurado continuamente melhorá-lo e superá-lo com uma solução mais eficaz. É uma empresa com tecnologia muito madura, por enquanto líder, e que tem e usa todos os recursos para manter essa liderança com novos desenvolvimentos. Além disso, mantém-se muito atenta aos seus competidores… Seria até muito provável que uma qualquer melhora significativa conseguida por uma start up fosse imediatamente assimilada pelos grandes buscadores da actualidade – Google, Yahoo ou Live Search da Microsoft.

Creio que fica provado que o tamanho não é a questão de fundo, apesar do crescimento imparável da rede. O aumento do índice deve ser acompanhado de técnicas cada vez mais inteligentes no processamento de tanta informação. E nenhuma deve ser descartada.


Cuil, a guerra do tamanho? – Parte I

Como tem sido recorrente nos últimos dez anos, vários projectos de motores de pesquisa surgiram com o intuito de destronar Google, o motor actualmente mais utilizado em todo o mundo. Foi o que voltou a ocorrer com o Cuil, lançado no passado dia 27 de Julho.

Cuil

Cuil

Nesta primeira parte, falaremos do projecto e principais características. Numa segunda fase, a atenção estará voltada para as reacções, testes e comentários ao desempenho do Cuil.

Cuil pronuncia-se “cool” e significa conhecimento na sua origem irlandesa, oferecendo uma imagem de transparência e inovação (veja-se a simplicidade do site) na forma de trabalhar uma área tão complexa como é a pesquisa e a recuperação de informação relevante na Internet.

O projecto arrancou em 2006 e está encabeçado por excelentes peritos na área da pesquisa, nada mais nada menos que Anna Patterson e Russel Power, dois ex-Google, aos quais se juntou Louis Monier.

Processo utilizado no Cuil

Neste projecto, como em qualquer projecto de indexação, foi recolhido o material – as páginas web, com um robot, o Twiceler. Uma vez capturadas as páginas, foi analisado o seu conteúdo e foram aplicadas técnicas de data mining. Quando um utilizador faz um pedido, o sistema analisa a expressão de pesquisa e apresenta os resultados em contexto. Ou seja, a pessoa escreve simplesmente “jaguar”, sem especificar se a informação que pretende diz respeito ao animal, ao carro ou ao sistema operativo. Essa polissemia é controlada e, na apresentação dos resultados parciais, a pessoa é convidada a precisar, sem ter que reformular a questão ou perder tempo a consultar uma lista de resultados sem interesse para o seu objectivo.

As “bandeiras” do Cuil

Em todos os artigos publicados na imprensa e na página oficial de Cuil sobressaem quatro aspectos neste novo motor de pesquisa.

  • Primeiro – Tamanho do índice

Os criadores do Cuil reclamam que têm um índice 3 vezes superior ao do Google, embora desde há três anos a empresa não divulgue o número de páginas que indexa. No caso do Cuil, o índice foi criado com base em 120 mil milhões de páginas de um total de 186 mil milhões recolhidas. No processo de indexação, manual ou automático, é necessário fazer uma depuração. São rejeitadas páginas duplicadas (a duplicação é uma característica da rede), páginas que constituem armadilhas para o robot, como calendários, porque fica a puxar páginas infinitamente, praticamente vazias de conteúdo.

  • Segundo – Apresentação/ Visualização dos resultados

A aposta para o layout do Cuil foi seguir a dos jornais, ou seja, a disposição dos resultados em três colunas. Trata-se de uma fórmula universalmente testada e bem sucedida na imprensa, por isso uma aposta ganha, pensam os criadores. Argumentam que é mais fácil de ler e mais limpa. Além disso, a pessoa pode ver mais resultados sem recorrer ao cursor. Para cada resultado, existe uma imagem que, segundo os autores, ajuda o utilizador a fazer uma avaliação mais rápida acerca do interesse da página recuperada.

Além da novidade no layout, é oferecida a possibilidade de refinar a pesquisa após um primeiro pedido e respectiva lista de resultados. A técnica usada é a de “clusters” ou tópicos que ajudam a pessoa a redireccionar o sentido da pesquisa.

Também na introdução da expressão da pesquisa funciona a “search suggestion”, ou seja, o sistema vai preenchendo automaticamente a partir dos caracteres que vão sendo digitados.

Neste capítulo, falta mencionar o “safe search” (que também existe na pesquisa avançada do Google Search) e a possibilidade de personalizar o layout. Por defeito o sistema assume 3 colunas e o modo de pesquisa segura, mas cada pessoa pode alterar e gravar as preferências no seu navegador.

  • Terceiro – Critério de ordenação baseado no conteúdo

O ranking é das partes mais sensíveis em todo o processo e é a alma do sistema de pesquisa, porque ninguém deseja uma lista de resultados sem qualquer critério. Os critérios inicialmente utilizados, antes da era Internet, portanto em colecções controladas, eram o alfabético e a data. Com um universo de resultados usualmente amplo, foi necessário desenvolver o critério da relevância, que aliás tem sido exportado para catálogos, bases de dados, etc.

David Sullivan, estudioso desde há uma década dos motores de pesquisa e autor do site Search Engine Land, considera 4 estádios de desenvolvimento nos critérios de ordenação de resultados. Apesar da evolução clara, é possível e desejável que as etapas seguintes incorporem o melhor ou o que continua a ser eficaz das anteriores.

  1. Critério baseado na ánalise do conteúdo das páginas. Corresponde à fase do Lycos, do Infoseek, do Webcrawler, etc. Consistia em apresentar em primeiro lugar as páginas que apresentassem a frequência mais elevada dos termos pesquisados. Também eram consideradas mais relevantes as páginas em que co-ocurressem termos ou que se encontrassem em partes do documento mais importantes, como na etiqueta title, por exemplo. O índice era praticamente uma “cópia” dos textos das páginas web.
  2. Critério que usa a análise dos links das páginas. Este método de cálculo da relevância representou uma revolução e está associado ao PageRank da dupla Page+Brin. Há várias fórmulas, mas a mais eficiente até à data é a de Google que usa o PageRank combinado com outras estratégias. Basicamente, trata-se de medir a relevância de uma página por meio dos links que apontam a essa página, ou seja, através da sua visibilidade na rede. Se outras páginas apontam a essa, parte-se do princípio que é importante. A situação complica-se quando é necessário calcular também a relevância/ autoridade de quem aponta a essa página. Se diversos organismos credíveis apontam a essa página, ela é muito mais relevante. Neste critério, fala-se de votos por meio dos links e de popularidade. O calcanhar de Aquiles desta técnica está no que ficou conhecido por Googlebombing.
  3. Critério de ordenação por tópicos (vertical search). É uma técnica que assenta na ideia elementar que um bom resultado depende muito da pessoa saber ou não o que procura. Assim, apresenta-se ao utilizador uma série de categorias ou tópicos (por temas, por área geográfica ou por tipologia de recursos – imagem, vídeo, blog, etc.) para ajudar a uma pesquisa mais focada. A pesquisa geral na web chama-se horizontal por oposição a este tipo de pesquisa mais especializado. Porém, a prática revele que as pessoas não usam ou não sabem para que serve, pelo que o uso da caixa simples e da pesquisa básica continua a ser preferido.
  4. Critério assente no uso da informação. É a mais recente tendência e utiliza informação dos padrões de comportamento e uso dos utilizadores para melhorar os resultados. O número de cliques, os resultados seleccionados e o tipo de navegação na folha de resultados, conjugado com a personalização da pesquisa, constituem os pontos fortes desta técnica. Trata-se de monitorizar os sites mais visitados, as queries feitas, associando-os a um grupo, ou mais propriamente a um indivíduo, fazendo com que as opções anteriores pesem na apresentação dos resultados futuros. Há quem defenda que o comportamento social pode funcionar para este fim, mas vários peritos dizem que a pesquisa, ao contrário dos favoritos, é um acto muito pessoal e não partilhável. Acrescentaríamos que é também um processo muito dinâmico. Vincent Cerf da Google garante, aliás, que se o Google é popular, isso se deve ao facto de procurar ser útil a cada indivíduo.

O Cuil usa o critério de análise do conteúdo, combinado com a popularidade. Só oferece pesquisa horizontal e não usa o tracking para melhorar resultados, visto não guardar qualquer informação das pesquisas efectuadas.

  • Quarto – Política de privacidade

O Cuil demarca-se substancialmente do Google e de outros motores no activo. Os responsáveis afirmam que não recolhem IP nem usam cookies para conhecer os utilizadores que os visitam. Actualmente, o Google guarda os dados por um período de 18 meses, tendo sido pressionado a estabelecer um prazo de armazenamento por protestos dos seus utilizadores e exigências legais. No Cuil a transparência é total. Respeitam-se os protocolos de proibição de captura por robot (ficheiros robot.txt) e as cookies usadas para personalizar o layout não são armazenadas nos servidores mas localmente no PC do utilizador.