Home
» Wiki
»
Google publicou acidentalmente documentação sobre como a pesquisa funciona
Google publicou acidentalmente documentação sobre como a pesquisa funciona
Na segunda-feira, documentos internos descrevendo os fatores que o Google Search considera ao classificar e exibir resultados da web vazaram.
Google revela acidentalmente como funciona a Pesquisa
Esses documentos foram tornados públicos por Rand Fishkin, da SparkToro, uma empresa de software. Fiskin trabalhou anteriormente no setor de otimização de mecanismos de busca (SEO).
Este “Repositório de conteúdo da API do Google” contém documentação interna da API que explica aos funcionários como funcionam os diferentes componentes que geram resultados de pesquisa. Há mais de 2.500 páginas no total. Alguns descrevem sistemas mais antigos, mas outros documentos parecem estar atualizados.
Com base no que foi publicado, o Google parece tê-lo disponibilizado publicamente — talvez por acidente — via GitHub a partir de 27 de março. Os documentos explicativos foram divulgados em 7 de maio. No entanto, como foi indexado por um serviço de terceiros naquela época, uma cópia permaneceu disponível mesmo após a remoção pelo Google.
Embora esses dados mostrem quais fatores o Google Search pode considerar ao classificar os resultados da pesquisa, eles não revelam a importância de cada fator para as classificações finais.
Aqueles na comunidade de SEO que tentam se adaptar às mudanças nas classificações da Pesquisa Google e aparecer mais acima na página podem achar esses dados úteis. Depois de analisar o documento, eles descobriram que ele contradizia o que o Google havia dito publicamente sobre como a Pesquisa funciona.
O Google ainda não comentou publicamente sobre o vazamento. A empresa anunciou sua última grande atualização na Pesquisa em março, com o objetivo de mostrar conteúdo mais autêntico e “útil”. Seu sistema de classificação principal foi atualizado para determinar se uma página foi “construída para mecanismos de busca e não para pessoas ” .
As maiores descobertas no vazamento
Uma coisa é clara: o algoritmo de pesquisa do Google não vazou e os especialistas em SEO não têm todas as respostas de repente. Mas as informações vazadas em milhares de documentos internos do Google ainda são enormes. É uma visão sem precedentes do funcionamento interno geralmente bem guardado do Google.
Os sites dependem do tráfego de pesquisa para sobreviver, e muitos farão grandes esforços – e gastarão muito – para vencer seus concorrentes e chegar ao topo dos resultados. Melhores classificações significam mais tráfego no site, o que significa mais dinheiro. Como resultado, os operadores de sites monitoram de perto cada palavra publicada pelo Google, bem como cada postagem nas redes sociais, em relação às classificações de pesquisa.
Ao longo dos anos, porta-vozes do Google negaram repetidamente que os cliques dos usuários influenciam a classificação dos sites, mas documentos vazados observaram que certos tipos de cliques dos usuários influenciam na classificação das pesquisas. Depoimentos de um caso antitruste anterior do Departamento de Justiça dos EUA revelaram um fator de classificação chamado Navboost, que usa cliques do usuário para elevar o conteúdo na pesquisa.
“Para mim, a maior conclusão é que muitas das declarações públicas do Google sobre o que eles coletam e como seu mecanismo de busca funciona estão em desacordo com a realidade”, disse Rand Fishkin, especialista no setor de otimização de mecanismos de busca (SEO), ao The Verge por e-mail .
O vazamento se tornou viral depois que os especialistas em SEO Fishkin e Mike King publicaram parte do conteúdo do documento confidencial no início desta semana, junto com a análise que o acompanha. Os documentos de API vazados incluem repositórios cheios de informações e definições sobre os dados coletados pelo Google, alguns dos quais podem informar como os sites são classificados nos resultados de pesquisa. O Google inicialmente evitou perguntas sobre a autenticidade dos documentos vazados antes de confirmá-los oficialmente na última quarta-feira.
"Advertimos contra suposições imprecisas sobre a Pesquisa com base em informações fora de contexto, desatualizadas ou incompletas", disse o porta-voz do Google, Davis Thompson, ao The Verge em um e-mail na quarta-feira. “Compartilhamos informações abrangentes sobre como a Pesquisa funciona e os tipos de fatores que nossos sistemas consideram, e trabalhamos para proteger a integridade de nossos resultados contra manipulação . ”
Não há lugar na documentação que fale sobre como ponderar os diferentes atributos. Também é possível que algumas das propriedades nomeadas na documentação — como um identificador para um "pequeno site pessoal" ou um rebaixamento para avaliações de produtos — tenham sido implementadas em algum momento, mas depois removidas. Eles também podem nunca ter sido usados para classificar sites.
"Não sabemos necessariamente como [os elementos] estão sendo usados, além das diversas descrições deles. Embora não seja muito rico, ainda é muita informação para nós", disse King. “Em quais aspectos devemos pensar mais especificamente ao criar um site ou otimizar um site?”.
A ideia de que a maior plataforma de busca do mundo não classifica os resultados da pesquisa com base em como os usuários interagem com o conteúdo parece absurda. Mas negações repetidas, respostas cuidadosamente formuladas e publicações do setor fazem deles um tópico controverso.
Outro ponto importante destacado por Fishkin e King diz respeito a como o Google pode usar dados do Chrome em suas classificações de pesquisa. Representantes do Google Search disseram que não usam nada do Chrome para classificações, mas documentos vazados sugerem que isso pode não ser verdade. Por exemplo, uma seção lista “chrome_trans_clicks” para indicar quais links de um domínio aparecem abaixo do site principal nos resultados da pesquisa. Fishkin explica que isso significa que o Google “pega o número de cliques nas páginas do navegador Chrome e usa esse número para determinar os URLs mais populares/importantes em um site, que são então calculados para inclusão no recurso de links de sites ” .
Há mais de 14.000 propriedades mencionadas no documento e os pesquisadores teriam que cavar por semanas para encontrar as dicas contidas nas páginas. “Twiddlers” ou ajustes de classificação são implantados fora das principais atualizações do sistema para classificar o conteúdo para cima ou para baixo de acordo com determinados critérios. Elementos do site, como quem é o autor, são abordados, bem como medidas da “autoridade” do site. Fishkin ressalta que há muita coisa que não está representada nos documentos, como informações sobre resultados de pesquisa gerados por IA.
Então o que tudo isso significa? Primeiro, talvez qualquer pessoa que administre um site leia sobre esse vazamento e tente entendê-lo. Editoras, empresas de comércio eletrônico e empresas provavelmente criarão vários experimentos para tentar testar algumas das coisas sugeridas no documento. Quando isso acontece, os sites podem começar a parecer um pouco diferentes — enquanto tentam dar sentido a essa nova, mas ainda ambígua, onda de informações.
“Jornalistas e editores que cobrem SEO e Pesquisa do Google precisam parar de repetir as declarações públicas do Google e olhar mais de perto e com mais adversários a retórica do gigante das buscas”, disse Fishkin . “Publicações que repetem as alegações do Google como se fossem fatos apenas ajudam o Google a criar uma narrativa útil para a empresa, e não para profissionais, usuários ou o público.”