Entradas com Tags ‘google’
Goste-se ou não, o que é certo é que o Google já faz parte da vida das pessoas. Isso até se comprova pela rapidez com que o termo e as variantes entraram nos hábitos dos falantes de todas as línguas: googler (francês), googolare, gugolare (italiano), googlar, googlear, guglear (espanhol), googelen (holandês), googlar (português).
Há uns anos atrás, nos idos 2006, a empresa mostrou algum aborrecimento por usarem a marca como verbo, mas o que poderia estar a ser encarado como uma desvantagem revelou-se com o tempo uma mais valia.
Inevitavelmente, perante tal poder, formaram-se opiniões, muitas vezes contrárias. Na iniciativa One Day Without Google sublinha-se o poder crescendo do grupo. Noutros casos, como no inquérito feito pela Pew Internet/ Elon University, os resultados à questão “Google will make people stupid?” fazem sobressair a ideia de que o motor mais famoso não estupidifica, embora possa criar preguiça mental. Também por várias vezes ao longo destes anos, foram lançadas questões às pessoas da rua sobre se conseguiam dispensar o Google das suas vidas. Recentemente colocou-se aos chineses a mesma pergunta, deixando clara a indiferença destes à retirada da Google.
Mas no meio deste caldo de reacções, o que me interessa é perceber os próximos passos da Google numa altura em que a sua agenda está algo agitada. Se por um lado tenta sossegar empresas de telecomunicações e indústria de lazer, por outro ficou debaixo de fogo com o novo produto – o Buzz. É também um momento em que envereda por áreas totalmente novas como a da energia e telecomunicações.
Há dias, li no Cnet News que o Google gosta de ser o menino bonito. Estuda sempre a lição, prepara -se bem para os exames, interessa-se por muitas disciplinas e consegue alcançar bons resultados em todas. Enfim, é bem quisto por todos os pais e comunidade. Provavelmente por causa de cair quase sempre nas boas graças das pessoas, tem dificuldade em lidar com algumas críticas e falhas que vai cometendo. Todos temos assistido a desaires da Microsoft, a ataques directos às intenções do Facebook ao descurar a privacidade. Vir ao terreiro defender a dama é porém uma questão de honra da qual a Google não pensa abrir mão. Ainda recentemente, reagiu de imediato às críticas ao Buzz, corrigindo a falha e tentando repor a calma nas hostes.
Essa espécie de aluno bom comportado mereceu-lhe a simpatia de Washington com quem tem relações privilegiadas e de claro favorecimento.
Mas não há dúvida que a empresa não pára e aposta claramente na diversificação, não só ao nível dos produtos e serviços, como sói tratar-se, mas ao nível mais estratégico – diversificação nos ramos de negócio. Esse crescimento está a despertar em cadeia uma série de obstáculos vindos dos mais variados sectores.
1. Pesquisa
A fama e o poder da Google foi proporcionado pelo seu motor de pesquisa. O famoso algoritmo do cálculo do Page Rank é o Santo Graal da pesquisa que todos desejam obter. É claro que desde os primórdios muito desenvolvimento foi feito pelos técnicos da Google, mas nunca se descobriu a fórmula.
Recentemente, o crescimento do peso das redes sociais na Internet é tal que há já muitas pessoas cuja experiência na Internet se reduz às redes e que fazem todas as consultas desde aí e aí. Tanto assim é que as visitas geradas em muitos websites são já parcialmente oriundas das redes sociais. A juntar-se a esta realidade, assiste-se a um cada vez maior número de utilizadores com telemóvel para aceder à Internet e serviços.
A Google reagiu e para o primeiro caso realizou acordos com Twitter, Facebook e outras redes no sentido de integrar os resultados do universo social nas suas pesquisas; na mesma linha lançou o Buzz que procura integrar o Gmail com as redes. Para o segundo problema, tem adaptado produtos como Earth, Maps, Voice, Search Voice, tradutor, etc., à realidade móvel.
2. Publicidade
Apesar do motor Google ser a coqueluche, o que dá efectivamente dinheiro à empresa é a publicidade via Adsense e AdWords. Também esquemas de micro-pagamento que poderão vir a ser testados na plataforma Youtube que oferece actualmente qualidade HD poderão a ser prática corrente dentro em breve. É com essa aliciante que o Google se tem apresentado, quer no caso do Youtube, quer no do Google News e Google Books, que tanta polémica têm gerado.
Só para dar o exemplo do Youtube, não chegando a receita publicitária para cobrir os 356 milhões de custos pela manutenção da plataforma nem para satisfazer os produtores e distribuidores, Google acaba de criar este ano um serviço de aluguer de filmes (de momento só a funcionar para o público dos EUA). Está igualmente prevista a entrada num negócio “iTunes” com a compra da Catch Media.
Outras tantas iniciativas e batalhas, cada vez mais no plano judicial, estão a ser travadas no campo dos conteúdos, dos direitos de autor, da privacidade. Em sua defesa, a Google insiste na ideia de que não quer concentrar os lucros, que todos ganham no esquema que deseja implementar e que está interessada em matizar o modelo com as necessidades dos outros intervenientes.
3. Software/ Sistemas operativos
Além do desenvolvimento em tempo recorde do sistema operativo para telemóveis – o Android, a Google apostou forte no Chrome OS, quer no sistema de navegação quer no sistema operativo para notebooks.
Curiosamente, o sistema Android, desenhado para telemóveis, está a ser estendido com sucesso a outras plataformas, quer em notebooks quer em tablets. A HP acaba de lançar o seu portátil com o sistema Android, mas também dois tablets foram criados com o mesmo sistema, o Archo, o Compal e o Vega, o que prova a versatilidade do Android. Aliás, posso testemunhar a efervescência desta comunidade, inclusive no nosso país, numa recente formação em que participei.
4. Telefonia
Depois de surpreender tudo e todos com a apresentação do seu próprio telemóvel lançado a 5 de Janeiro, o mercado de telemóveis de tecnologia Android e/ou hardware Google (Nexus One) soma e segue. O sistema operativo Android está em 26 telemóveis diferentes e é vendido por 59 operadoras de telecomunicações em todo o mundo. O HTC Hero com Android foi eleito o melhor telemóvel 2009.
5. Energia
A entrada do pedido da Google para operar no mercado energético ocorreu em Dezembro passado, através da sua subsidiária Google Energy, mas só agora a entidade reguladora americana, a FERC, deu luz verde. Mais uma vez a surpresa foi grande. Mesmo no mercado americano é inédito, porque até agora as 1500 entidades com permissão são serviços públicos ou produtores de electricidade. É a primeira vez que é concedida licença a uma empresa estranha ao ramo, no caso uma empresa tecnológica.
A Google diz que o objectivo é atender às suas necessidades de produção de energia e apostar nas energias verdes, como decidido em 2007, mas nada a impede de se posicionar no mercado como fornecedor desses mesmos serviços e isso inevitavelmente acontecerá para rentabilizar know how e infraestrutura.
Em post anterior, já tinha falado dos consumos abissais de energia dos data center e do registo de patente do sistema de plataformas energéticas em alto mar. Crê-se que a factura energética da Google seja qualquer coisa de assustador, sobretudo tendo em conta os muitos data centers espalhados pelo mundo, porém a empresa nunca revelou dados.
Os objectivos “0 carbono” definidos estrategicamente em 2007 são veiculados no blogue Going green at Google e compreendem a eficiência enegética, o uso de energias limpas e a compra de créditos de carbono para reduzir a pegada ecológica da empresa.
Algumas iniciativas da empresa nesta matéria cobrem a computação eficiente com a optimização de servidores e o uso de água e ar para arrefecimento, o uso de energias alternativas, sobretudo solar, caso da sede em Mountain View, o cuidado na construção dos edifícios, o estímulo às deslocações em bicicleta e partilha de carro para funcionários, e uma série de dispositivos de monitorização e poupança.
A título de exemplo, refiro o PowerMeter que mede e monitoriza o consumo doméstico e ajuda a optimizar uso energético. Sobre o impacto deste aparelho no comportamento do cidadão no RU, recomendo o artigo do The Guardian. Há ainda o Google Transit que usa o maps valorizando uso dos transportes públicos e mais uma série de gadgets para o desktop, como o Blackle, que usa ecrã preto, ou o Save electricity, que poupa cliques nas consultas.
Uma outra vertente que tem estado muito visível ultimamente dada a concentração de catástrofes naturais como as ocorridas no Haiti e Chile é a disponibilização de dados do clima, mapas, para as equipas de ajuda ou para a procura de familiares.
6. Telecomunicações
Para completar o ramalhete, só faltava mesmo ser ISP e fornecedor de banda larga, fazendo concorrência directa às operadores de rede.
Mesmo para um leigo, é compreensível a necessidade de boas ligação à Internet numa empresa como a Google, pois a velocidade da rede é como pão para a boca. Assim, para poder avançar com novos serviços e liderar o sector, sobretudo num momento em que querem estender o recurso à cloud, a empresa anunciou a criação de uma rede de área geográfica restrita, que beneficiará 50 mil pessoas até um máximo de meio milhão. Neste projecto piloto de rede rápida prometem 1Gb de largura de banda e velocidade 100 vezes superior, o que permite conferências 3D, transmissão de imagens médicas 3D, descarga de filmes HD em 5 minutos. A fase de inscrição de comunidades interessadas em participar termina a 26 de Março.
Para que se possa avaliar a importância do marco 100X mais rápido, basta dizer que a média da velocidade nos EUA é de 3,9 Mbps e que apenas 19% de todas as ligações no mundo gozam de uma velocidade superior a 5 Mbps.
A empresa sublinha que se trata de um ensaio, cujos resultados prometem partilhar para que este progresso se dê em vários pontos do mundo, e esclarece que desde há muito tempo investiga formas de melhorar o protocolo da Internet, a gestão dos pedidos aos servidores e o tráfego da rede e que está fortemente empenhada na modernização da rede e generalização da fibra óptica. Garantiu que defende a neutralidade da rede e que a sua rede estará aberta a terceiros.
Apesar dos comunicados, difícil tem sido sossegar as empresas de telecomunicações, que o diga Eric Schmidt, que em Espanha teve de enfrentar uma plateia enfurecida com os discursos inflamados do patrão da Telefónica, César Alierta, que incendiou as mentes ao acusar a Google de enriquecer à custa das empresas de telecomunicações, usando as suas redes, mas pagando-lhes nada, já que da fatia de publicidade gerada fica em território espanhol apenas 5%. O enviado da Google tentou mostrar que o telemóvel reúne vantagens para todos e que devem trabalhar em conjunto.
Existe claramente um entendimento errado desta questão, tendo-se exposto o ridículo da leitura do patrão da Telefónica ao dar-se como exemplo na rede eléctrica o pagamento da luz pelos consumidores finais, mas também pelos fabricantes e vendedores dos electrodomésticos. Ora a Google é intermediária e disponibiliza aplicações e plataformas, usando as redes cuja utilização é paga pelos clientes às operadoras.
Conclui-se facilmente que a empresa é cada vez mais vista como tendo duas faces e que o famoso slogan “Don’t be devil” está a ser cada vez mais contestado. Estar no pódio tem custos enormes, mesmo para uma empresa que cultiva a imagem e sabiamente tem gerido uma relação de simpatia com milhões dos seus clientes. Lá diz o ditado, agradar a gregos e troianos…
Já muita tinta correu sobre o caso Google na China. Preferi deixar passar o calor das declarações, juntar os pontos e escrever este comentário. Alguma distância permite melhor análise, embora a questão não seja clara sob muitos aspectos e este venha a ser um tema no fio da navalha no futuro.
Desde 2003 que o Google tentava penetrar no mercado chinês e, nessa altura, realizou a tradução do Google Search para mandarim. Sempre periférico, só conseguiu instalar-se em 2006, apostando num centro de desenvolvimento na área da pesquisa. Especialistas elogiam o trabalho do Google desde então que procura entender e lidar com as nuances da língua. Também muitos utilizadores sublinham a rica experiência de navegação face ao Baidu, motor de pesquisa líder no espaço chinês.
Com escritórios abertos e 800 empregados, a posição no mercado é significativa face ao gigante Baidu: 19% contra 75%, sobretudo tendo em conta os hábitos bem entranhados do uso do Baidu, conhecido desde 2000, a maior perícia do Baidu para pesquisar na língua, e as penalizações constantes do Governo chinês ao Google por não evitar conteúdos pornográficos.
Ao contrário da Yahoo, que colocou servidores em território chinês, o Google optou por ter o núcleo do controlo da informação fora do território para não criar vulnerabilidades nem ser obrigado a dar informação a pedido do governo.
Acontecimentos recentes, levaram a empresa a disparar o alerta laranja.
Por que razão só agora a oposição à censura passou a ser fundamental? É preciso não esquecer que a violação desse princípio e a cumplicidade e subserviência em relação ao regime opressor chinês fez-se desde a entrada da empresa no país.

Saturação? Chantagem? Pretexto para sair dignamente? Bluff para dissuadir o Governo chinês?
Muito se pode especular sobre as motivações do Google para dar este passo: exigir o termo da repressão na pesquisa. Estou certa que o apoio de retaguarda da Casa Branca e da política de Obama de lutar pela neutralidade da Internet pesaram muito. E viu-se na imediata reacção da Casa Branca e Hillary. Esperava Google que as empresas atacadas se unissem e fizessem o mesmo? Ora a Microsoft veio logo romper a cadeia de solidariedade… Será que Google está disposto a abdicar do mercado de 1,3 mil milhões? Custa a crer!
Comportamento deplorável, inclassificável, vergonhoso. Dizem que a actuação está de acordo com as leis. Fazem-nas à medida. Chantageiam, ameaçam retaliações económicas e dizem que as relações EUA/China já ficaram manchadas. É uma actuação sem escrúpulos que não obedece aos direitos humanos universalmente consagrados e um risco real para a liberdade e neutralidade da Internet no futuro, pois a China vai querer dar cartas nessa matéria e não faltarão “insensatos” a apoiá-la.
Na verdade, mereciam que muitos “Googles” lhes fizessem frente, desde o início, desde sempre, em constante choque. Na minha opinião, a preocupação de todos em relação a este episódio devia ser séria e concertada.
Fez o que tinha de fazer e a atitude só pecou por tardia. Toda a gente sabe que actualmente a China é o maior credor dos EUA.
As primeiras declarações da Casa Branca mostravam a preocupação de Obama e exigiam explicações.
Seguiu-se a intervenção de Hillary. Diplomaticamente, poderá ser considerada uma declaração dura, desajeitada, politicamente incorrecta. Não sei, mas gostei de ouvir com clareza que no século XXI todo o país que pratica a censura compromete o desenvolvimento, que os responsáveis devem ser punidos, que numa rede um ataque a um elemento é um ataque a todos.
Principais vítimas na história. Em reacções à ocorrência, uns declaram-se tristes pela possível saída do Google, outros acham que os chineses é que perdem, outros acham que é tempo do Governo do seu país acordar para a realidade.
Dou algum destaque à tomada de posição da Microsoft que viu o seu produto estrela envolvido na questão, o Internet Explorer, que facilitou e constituiu o ponto de lançamento do ataque.
Segundo história do Finantial Times, as declarações de Ballmer foram: «(He) described the affair as “the Google problem” and said: “Every large institution is being hacked. I don’t think it’s a fundamental change in the security environment on the internet.”»
Muita sacanice e falta de ética. O problema não é Google/ Microsoft. O alcance é maior, e quer queira quer não, a Microsoft está metida ao barulho. “O problema é do Google” é uma afirmação completamente irresponsável e inconsciente da gravidade da situação. A luta não é (só) comercial, mas (também) contra a censura no maior país e o mais prevaricador nesta matéria.
Ballmer optou por minimizar o facto, afirmar que ataques acontecem todos os dias às grandes empresas e que não compreende a ameaça de retirada do Google. Pelo contrário, confirma que a Microsoft se vai manter na China.
Achei pouco dignificante e até degradante. A Microsoft tem o seu mérito como player tecnológico, mas deixou sempre muito a desejar em ética e postura. Como dizia, são precisos muitos Googles, tenham eles o nome que tiverem e esta falta de solidariedade é preocupante, porque não é uma empresa que assusta o Governo chinês e a sua máquina bem oleada, mesmo que essa empresa seja o Google.
A assumpção de que algo esteve mal do lado da Microsoft não se fez esperar no espaço europeu, sempre mais cauteloso nestas questões de dados pessoais e privacidade. Pelo menos a França, Alemanha desaconselharam o uso do IE pela vulnerabilidade.
Na mesma altura é lançado o Firefox. Se eu não usasse, este episódio seria para mim suficientemente grave para me fazer mudar de navegador. Vale a pena o esforço, vale a pena opormo-nos à censura. Porque não começar por usar outros navegadores?
***************************
3 de Maio de 2010
Depois da retirada do Google, o motor dominante – o Baidu, viu alargada a sua esfera de influência, embora os analistas digam que o benefício será temporário. Outros motores posicionam-se na corrida e prometem mais resistência: o Taobao o Tencent.
No passado dia 8, na Conferência deste ano do TechCrunch50, foi apresentado o projecto Google News Archive por Marissa Mayer.
Trata-se de um projecto lançado a 6 de Setembro de 2006, mas ao qual a empresa quer dar agora nova visibilidade e dimensão. Para isso, está a negociar com editores de jornais e revistas, à semelhança do que fez com o Google Books, iniciado em 2004.
Actualmente, o serviço Google News tem um tráfego de 9,5 milhões/ dia e atingiu a maturidade, pois já funciona desde 2002. A ideia de relançar a versão arquivo permite fortalecer a ferramenta e servir a mais necessidades e utilizadores.
De referir que a ideia do projecto não é nova. Além de decalcar modelos bem sucedidos nos mapas e nos livros, existe já no meio jornalístico desde 2003 o projecto Journalismnet, que permite pesquisar notícias antigas. Mas enquanto que neste exemplo, a recolha é da imprensa, rádio e televisão, no caso de Google só são notícias escritas.
Google News Archive é um motor de pesquisa vertical (Vertical search) dedicado a notícias de arquivo. Trata-se de uma hemeroteca que difere do Google News Service por trabalhar mais a perspectiva temporal. Assim, as notícias com mais de 30 dias do Google News passam aos arquivos, embora ocorram atrasos nessas transferências. Por outro lado, o serviço de arquivo não recupera todas as notícias mais recentes, apesar de possuir a opção de notícias de há uma hora, do dia anterior ou de há uma semana.
Como explicámos em post anterior, a pesquisa vertical tem as suas virtudes, mas só funciona bem se a pessoa a usa para o fim para o qual foi pensada.
Presentemente, são dois serviços independentes, mas os responsáveis não descartam a hipótese de fundir tudo num só serviço no futuro. Está claro para quem estuda os motores, que existe um sub-aproveitamento da pesquisa especializada por parte dos utilizadores.
Os responsáveis garantem que o objectivo principal é o de proporcionar uma mais rica experiência na pesquisa e alargar o leque de recursos gratuitos acessíveis pela Internet.
Nós podemos acrescentar, sem qualquer margem de erro, que a empresa pretende reforçar a sua liderança no mercado da organização e disponibilização de informação, criando mais produtos/ serviços para que o seu motor de pesquisa continue a ser o mais utilizado. Mais uso, mais interessados em usar o espaço Google para publicitar.
Todavia, há que reconhecê-lo, esta iniciativa prova que existem nichos no mercado que não são oportunamente explorados por outros actores. A própria imprensa mundial podia haver criado anteriormente consórcios e avançar com projectos de digitalização do papel e experimentar novos modelos de negócio na Rede.
Todos são conhecedores das graves dificuldades da imprensa convencional, da perda de assinaturas e da adopção da versão online de muitas edições em papel, ou ainda do aparecimento de versões electrónicas de raíz. Também se assistiu ao acesso incondicional aos arquivos dos jornais, depois ao acesso exclusivo para assinantes e, mais recentemente, à reabertura das hemerotecas digitais ao público em geral. É notória a reacção em vez do proactivismo neste sector. Uns resolveram esperar para ver, ciosos dos seus activos, outros não tiveram a dimensão nem a estrutura para isoladamente encontrarem um modelo sustentável na Internet.
Fontes
Existem duas vias de alimentar a colecção deste arquivo. Na primeira possibilidade, Google coloca um crawler (spider) a recolher da Internet as notícias disponíveis. Mas, porque grande parte da informação não está acessível aos robots, por causa do que ficou conhecido por Internet invisível, a empresa decidiu sondar o mercado editorial da imprensa e propor essa disponibilização electrónica. Nesta via, há dois cenários: ou a entidade já tem o seu fundo em formato digital ou digitalizado, negociando-se apenas a modalidade de acesso; ou a colecção está em papel e deve ser digitalizada, assegurando Google esse serviço.
A receptividade da imprensa mundial nos primeiros anos foi pouca. Os detentores de conteúdos temiam a concorrência do Google. Mas a verdade é que sem concentrarem o acesso numa plataforma de consulta e distribuição, do Google ou de qualquer outra entidade, é complicado fazerem-se visíveis na Rede. O utilizador não vai estar a consultar jornal a jornal para um estudo ou levantamento de um tema, como já não o faz para se manter actualizado no dia-a-dia, recorrendo ao serviço Google News ou Yahoo News.
Agora, são mais as entidades que estão convencidas de que é uma fonte de receitas e que permite uma maior proximidade dos leitores.
Quanto à tipologia das fontes, existem basicamente 3 tipos de fornecedores de conteúdos: jornais/ revistas e agências de notícias (fontes primárias) e os agregadores (fontes secundárias), que dão acesso às primárias por subscrição e oferecem serviços/ produtos com valor acrescentado.
Google optou por não divulgar a lista de entidades do universo editorial que já aderiram ou com quem estão a negociar. Contudo, alguns nomes são conhecidos. Os jornais – Time, The Wall Street Journal, The New York Times, The Guardian e The Washington Post; os agregadores – Factiva, LexisNexis, Thomson Gale and HighBeam Research; as agências – AP e AFP.
Financiamento
Ter por objectivo disponibilizar online arquivos de notícias não é tarefa fácil, porque envolve custos pesados, sobretudo se as colecções estão em papel, se são muito grandes e/ou se estão em estado de preservação delicado. Qualquer das situações requer uma boa política de planificação quanto a direitos, armazenamento, etc., mesmo quando se trate de colecções born digital.
Google mantém o segredo acerca da fatia de orçamento destinada a este projecto, mas a viabilidade está assegurada pelas receitas que gerar o AdSense (ferramenta de publicidade do Google) e da cobrança da digitalização de colecções, nos casos em que isso vier a ocorrer. As receitas de publicidade serão para dividir com os editores.
Cobertura temporal e geográfica
Foi anunciado um período de cobertura temporal de 244 anos, o tempo de vida do jornal mais antigo que faz parte da colecção – Quebec Chronicle-Telegraph. Mas é óbvio que a maioria dos registos datam de épocas mais recentes, sobretudo de 1944 até à actualidade. O objectivo de Google é desbloquear situações de digitalização de fundos mais antigos junto de entidades que o queiram disponibilizar.
Na fase de arranque, os jornais e revistas incluídos eram americanos, mas presentemente estão a aderir editores de outros países e línguas.
Tamanho
Referem-se cerca de 100 entidades até ao momento. A colecção é ainda muito pequena e há temas/ tópicos sem qualquer notícia. Os responsáveis recomendam o tema do assassinato de Kennedy e a ida à Lua de Neil Armstrong e Edwin Aldrin para uma avaliação do potencial deste arquivo.
São já milhões as notícias pesquisáveis, mas isso representa uma gota no oceano da imprensa. Para ter uma ideia da dimensão do projecto, considerem-se os números de um único título. O jornal Time, que optou pelo regime de acesso livre, tem 1400 números e 300000 notícias digitalizadas que compreendem um período que vai desde 1923 à actualidade.
Tecnologia
Neste projecto Google usa a mesma tecnologia que para os livros com algumas melhorias, não só fruto da experiência, mas também da especificidade dos jornais (necessidade de localizar a notícia na página, em geral mais ampla). A Heritage Microfilm, especializada em criar microfilmes de preservação de jornais, e a ProQuest, grande fornecedor de serviços de informação – recolhe, organiza, publica e distribui informação, são os principais parceiros tecnológicos neste projecto.
Acesso
O acesso a este serviço faz-se desde a página do Google News através da opção “News Archive Search” ou da página do News Archive.
Quanto ao acesso às notícias, há o acesso livre e o acesso mediante pagamento. Se há lugar a cobrança, o utilizador é redireccionado para o jornal/ revista em causa. Isto significa que este processo escapa à gestão do Google e essa operação não tem lugar sequer na plataforma da empresa. Todavia, a pessoa pode sempre antever a notícia (preview) antes de passar à fase de aquisição.
Para as notícias em acesso aberto, existe o formato electrónico (independentemente da data), e o formato digitalizado, ao qual Google chama de notícias em contexto. Este último caso é fruto das digitalizações realizadas pela empresa e apresenta a notícia na página de jornal, sendo possível navegar pelas várias páginas desse jornal e ver outras notícias desse dia, a publicidade, as imagens e fotos, etc.
Na imagem, é possível ver uma notícia digitalizada em contexto, uma notícia digitalizada e uma notícia já publicada em formato electrónico.
Pesquisa
O motor procura em todo o corpo da notícia (pesquisa a texto completo). Dependendo da modalidade de pesquisa – simples ou avançada, é possível mais ou menos precisão. Os critérios são vários e parametrizáveis: a data pode ser detalhada ao dia; o custo da notícia permite filtrar por notícias gratuitas ou valores específicos. Além disso, o sistema permite introduzir o jornal pretendido e a língua dos resultados.
Debaixo do menú geral de pesquisa, existem uns tópicos/ temas seleccionados como sugestão. Funcionam como pre-pesquisa, caso algum dos temas interesse à pessoa, e também como exemplo de como se deve pesquisar, servindo de mote para um utilizador menos treinado.
Atentando nesses temas pre-pesquisados, avalia-se prontamente a forma como está organizada a informação para recuperação. São em geral personalidades individuais ou colectivas (marilyn monroe, duran duran), factos com designações bem conhecidas do grande público (keneddy murder), e fenómenos políticos, económicos, naturais, etc. (iraq war, kyoto protocol, aurora borealis, cyberespace). A organização da informação segue a lógica do clustering. Agrupa-se o que está relacionado com um tema ou tópico.
Visualização de resultados
O serviço oferece a possibilidade de consultar os resultados por notícias (News articles) ou por tabela cronológica (Timeline). Nesta última, são usados algoritmos que organizam as notícias na linha do tempo e geram um gráfico e uma espécie de clusters temporais do lado esquerdo. É uma forma muito sedutora de apresentar resultados e que permite leituras interessantes do tratamento de determinado tópico ao longo do tempo.
Experimentei a consulta por Timeline com o termo “web 2.0″ e constatei que só há notícias com este tema desde 2004. A pesquisa a “marilyn monroe” apresenta dados que vão desde 1500 a.C. até à actualidade. É compreensível a predominância na fatia 1950/1960, época de auge da actriz; fazem igualmente sentido as datas mais recentes, associadas a notícias póstumas sobre revelações, objectos que vão a leilão e outros. Mas questionei-me sobre as datas a.C. Seleccionando essa zona na tabela temporal, verifiquei que se trata de uma data relacionada com ensaios sobre a beleza de que a actriz é um exemplo. Isto significa que a Timeline considera não só as datas das notícias, mas também as datas que fazem parte do conteúdo dessas notícias.
Creio que fica explicado o interesse e o potencial associado a esta ferramenta.
Sobre a consulta da notícia na página de jornal em que originalmente surgiu (notícia em contexto), o que se pode dizer é que é outro factor que enriquece a visualização de resultados. Isto só ocorre com as notícias digitalizadas pelo Google, ou seja, aquelas que contenham a indicação da entidade que detém o conteúdo, seguida de “Google News Archive”.
Todo o contexto da época pode ser recuperado, desde o destaque dado à notícia até à visualização das fotos originais, passando por aspectos mais técnicos como a composição, as fontes, etc. A exploração é muito intuitiva. Funciona:
Refinamento e expansão da pesquisa
Como fica provado, desde a visualização dos primeiros resultados, é possível numa lógica de clustering, relançar a pesquisa, restringindo os resultados a determinados parâmetros de tempo.
Além de reduzir o espectro de resultados, é possível alargar os mesmos através das opções “Related news” e “Related pages”. São opções com funções distintas. A primeira usa os clusters e apresenta outras notícias com o mesmo tópico/ temática. Já a segunda utiliza a lógica dos URL e dá páginas que estão ligadas à página da notícia que seleccionarmos.
Ordenação de resultados
Os resultados são apresentados por relevância na modalidade “News articles”. Quando se elege a opção “Timeline”, o critério é cronológico.
Monitorização de temas/ tópicos
À semelhança do serviço de alertas do Google News, é possível criar o “Google alert”. Para criar um alerta, basta indicar o tema, seleccionar a modalidade “News” no tipo de informação que se pretende, indicar a periodicidade com que se deseja que o alerta funcione (sempre que haja novidade, 1 vez no dia ou 1 vez na semana).
Desta forma, é-se notificado acerca da entrada de uma notícia nova no arquivo. É preciso não esquecer que este arquivo tende a crescer e está a ser alimentado.
Globalmente, penso que este projecto está ganho e é-o porque está pensado para o utilizador final. Por muitas críticas que se façam ao Google, há que reconhecer-lhe mérito e visão estratégica. Seria benéfico que outros “googlizassem” mais a sua perspectiva e tentassem antecipar-se, em vez de se contentarem em apanhar o comboio à última hora.
Acerca da crítica mais contundente ao projecto – acesso a notícias com pagamento, parece-me arrogante. Esse facto não depende do serviço. Além isso, é preferível ter um serviço que permita pesquisas e uma lista de referências que se poderá consultar sem custo em bibliotecas ou hemerotecas, do que não ter qualquer base de trabalho à partida. Por outro lado, num serviço rápido, cómodo e de qualidade, é legítimo que um valor justo seja cobrado. Já não estou de acordo que se cobrem exorbitâncias por um recurso para cujo acesso não existem alternativas.
Vistos os objectivos e propostas do Cuil, debrucemos-nos agora sobre a sua prestação.
Voltando ao tamanho…
Os responsáveis do Cuil afirmam ser importante o tamanho do índice e defendem que se incluam sites de pequena dimensão. Todavia, o que se verifica é que o tamanho pode ser contraproducente. Quanto maior for o índice, mais tempo leva a actualizar essa informação – o Google usa tempos diferentes para actualizar páginas de notícias, por exemplo. Outra consequência lógica é a maior lentidão na resposta e a maior dificuldade em filtrar, ou seja, separar o trigo do joio. Isto, apesar das possibilidades tecnológicas estarem em evolução.
Porém, existe mérito no trabalho realizado pela equipa. Com muito poucos recursos humanos e com menos computadores, recolheram um número muito elevado de páginas.
O novo look e a preocupação com a privacidade
Acerca da forma de apresentação dos resultados em colunas, há quem goste e há quem ache que dificulta a leitura, precisamente o contrário do argumento utilizado pelos criadores. O que me parece indiscutível e positivo é a novidade e o assumir o risco da mudança. A personalização do interface é também um aspecto que soma pontos, embora não seja inovador, porque outros motores já o fazem desde há muito.
Discutindo a relevância dos resultados
Nesta área parece haver consenso nas reações quanto ao fraco desempenho do Cuil. Existem vários testemunhos, mas tomámos o teste apresentado na Online Tech Tips que utilizou a expressão “shipping seven” que se refere à futura versão do Microsoft Windows. Analisou a pertinência dos dez primeiros resultados nos vários motores de pesquisa que foram: Cuil – 10%; Google – 100%; Yahoo – 50%; Live Search – 60%; Ask – 0%. Em dez resultados, Cuil apresentou apenas um relacionado com o tema pesquisado.
Eu mesma realizei um teste simplório com o Cuil e o Google. Digitei a expressão “mastersid”, que se refere a um master da Universidade de Salamanca. Cuil não recuperou nos dez resultados uma única página relevante. Google apresentou como primeiro resultado um trabalho de um aluno realizado nesse curso e, na terceira posição, a página oficial do dito master. Curiosamente, o sistema do Cuil recuperou, e apresentou na página 4 de resultados, uma série de entradas do site Tagzania que possuíam a etiqueta “mastersid”. Foi um teste realizado pelos alunos desse master para experimentar as etiquetas e conhecer Tagzania. Devo dizer que o endereço do master é “http://mastersid.usal.es”, ficando claro que o sistema valorizou mais as etiquetas que os URL e recuperou, neste caso, o menos relevante.
A fórmula utilizada pelo Cuil necessita de muito trabalho para chegar à precisão actual do Google. Ao fraco desempenho na relevância, junta-se a ausência de pesquisa vertical, tendo sido o aspecto mais criticado a impossibilidade de este motor pesquisar especificamente imagens. Finalmente, a opção de não usar IP ou cookies para obter padrões de uso pode comprometer desenvolvimentos futuros.
O sucesso de um bom motor de pesquisa está associado à combinação de várias técnicas, e excluir à partida algumas possibilidades tecnológicas, não é muito sensato. A política de privacidade agrada à sociedade internauta, mas apenas a breve trecho, porque se a ferramenta não é eficaz, não vai ser utilizada.
Cuil tem muito para desenvolver e outra coisa não seria de esperar, porque estamos a falar de escalas muito diferentes, quando comparamos as duas empresas: Cuil tem 30 empregados contra os 20000 de Google; opera há 2 anos, tendo apresentado publicamente o seu produto há menos de dois meses. Ora, Google leva uma década de andanças.
Apesar de uma tecnologia poder alterar completamente as peças no tabuleiro de xadrez, não parece que isso vá ocorrer com Cuil, pelo menos no imediato. Google guarda bem o segredo do seu PageRank e tem procurado continuamente melhorá-lo e superá-lo com uma solução mais eficaz. É uma empresa com tecnologia muito madura, por enquanto líder, e que tem e usa todos os recursos para manter essa liderança com novos desenvolvimentos. Além disso, mantém-se muito atenta aos seus competidores… Seria até muito provável que uma qualquer melhora significativa conseguida por uma start up fosse imediatamente assimilada pelos grandes buscadores da actualidade – Google, Yahoo ou Live Search da Microsoft.
Creio que fica provado que o tamanho não é a questão de fundo, apesar do crescimento imparável da rede. O aumento do índice deve ser acompanhado de técnicas cada vez mais inteligentes no processamento de tanta informação. E nenhuma deve ser descartada.
Como tem sido recorrente nos últimos dez anos, vários projectos de motores de pesquisa surgiram com o intuito de destronar Google, o motor actualmente mais utilizado em todo o mundo. Foi o que voltou a ocorrer com o Cuil, lançado no passado dia 27 de Julho.
Nesta primeira parte, falaremos do projecto e principais características. Numa segunda fase, a atenção estará voltada para as reacções, testes e comentários ao desempenho do Cuil.
Cuil pronuncia-se “cool” e significa conhecimento na sua origem irlandesa, oferecendo uma imagem de transparência e inovação (veja-se a simplicidade do site) na forma de trabalhar uma área tão complexa como é a pesquisa e a recuperação de informação relevante na Internet.
O projecto arrancou em 2006 e está encabeçado por excelentes peritos na área da pesquisa, nada mais nada menos que Anna Patterson e Russel Power, dois ex-Google, aos quais se juntou Louis Monier.
Neste projecto, como em qualquer projecto de indexação, foi recolhido o material – as páginas web, com um robot, o Twiceler. Uma vez capturadas as páginas, foi analisado o seu conteúdo e foram aplicadas técnicas de data mining. Quando um utilizador faz um pedido, o sistema analisa a expressão de pesquisa e apresenta os resultados em contexto. Ou seja, a pessoa escreve simplesmente “jaguar”, sem especificar se a informação que pretende diz respeito ao animal, ao carro ou ao sistema operativo. Essa polissemia é controlada e, na apresentação dos resultados parciais, a pessoa é convidada a precisar, sem ter que reformular a questão ou perder tempo a consultar uma lista de resultados sem interesse para o seu objectivo.
Em todos os artigos publicados na imprensa e na página oficial de Cuil sobressaem quatro aspectos neste novo motor de pesquisa.
Os criadores do Cuil reclamam que têm um índice 3 vezes superior ao do Google, embora desde há três anos a empresa não divulgue o número de páginas que indexa. No caso do Cuil, o índice foi criado com base em 120 mil milhões de páginas de um total de 186 mil milhões recolhidas. No processo de indexação, manual ou automático, é necessário fazer uma depuração. São rejeitadas páginas duplicadas (a duplicação é uma característica da rede), páginas que constituem armadilhas para o robot, como calendários, porque fica a puxar páginas infinitamente, praticamente vazias de conteúdo.
A aposta para o layout do Cuil foi seguir a dos jornais, ou seja, a disposição dos resultados em três colunas. Trata-se de uma fórmula universalmente testada e bem sucedida na imprensa, por isso uma aposta ganha, pensam os criadores. Argumentam que é mais fácil de ler e mais limpa. Além disso, a pessoa pode ver mais resultados sem recorrer ao cursor. Para cada resultado, existe uma imagem que, segundo os autores, ajuda o utilizador a fazer uma avaliação mais rápida acerca do interesse da página recuperada.
Além da novidade no layout, é oferecida a possibilidade de refinar a pesquisa após um primeiro pedido e respectiva lista de resultados. A técnica usada é a de “clusters” ou tópicos que ajudam a pessoa a redireccionar o sentido da pesquisa.
Também na introdução da expressão da pesquisa funciona a “search suggestion”, ou seja, o sistema vai preenchendo automaticamente a partir dos caracteres que vão sendo digitados.
Neste capítulo, falta mencionar o “safe search” (que também existe na pesquisa avançada do Google Search) e a possibilidade de personalizar o layout. Por defeito o sistema assume 3 colunas e o modo de pesquisa segura, mas cada pessoa pode alterar e gravar as preferências no seu navegador.
O ranking é das partes mais sensíveis em todo o processo e é a alma do sistema de pesquisa, porque ninguém deseja uma lista de resultados sem qualquer critério. Os critérios inicialmente utilizados, antes da era Internet, portanto em colecções controladas, eram o alfabético e a data. Com um universo de resultados usualmente amplo, foi necessário desenvolver o critério da relevância, que aliás tem sido exportado para catálogos, bases de dados, etc.
David Sullivan, estudioso desde há uma década dos motores de pesquisa e autor do site Search Engine Land, considera 4 estádios de desenvolvimento nos critérios de ordenação de resultados. Apesar da evolução clara, é possível e desejável que as etapas seguintes incorporem o melhor ou o que continua a ser eficaz das anteriores.
O Cuil usa o critério de análise do conteúdo, combinado com a popularidade. Só oferece pesquisa horizontal e não usa o tracking para melhorar resultados, visto não guardar qualquer informação das pesquisas efectuadas.
O Cuil demarca-se substancialmente do Google e de outros motores no activo. Os responsáveis afirmam que não rec