Custos de treinamento de IA reduzidos em quase dez vezes e desempenhos que rivalizam, ou até superam, os do Google Search? Essa é a promessa do ZeroSearch, o novo truque da Alibaba para tornar suas inteligências artificiais mais autônomas.
E se sua inteligência artificial não precisasse mais do Google para ficar mais esperta? Essa é a ideia maluca (mas brilhante) por trás do ZeroSearch, uma tecnologia desenvolvida pelos pesquisadores da Alibaba. Imagine: em vez de bombardear mecanismos de busca externos com milhões de consultas caras para aprender, a IA agora se treina em circuito fechado, em sua própria caixa de areia digital. Uma pequena revolução que pode mudar o jogo no mundo da IA.
23/05/2025 17:33 JérômeO segredo do ZeroSearch? Um grande modelo de linguagem (LLM) – esses cérebros digitais que alimentam IAs como o ChatGPT – treina outro para se tornar um especialista em busca de informações. Pense nisso como um sábio ancião que ensina a arte da biblioteca a um jovem discípulo, mas sem nunca pisar em uma biblioteca real! Esse "LLM de simulação" primeiro aprende observando como um humano interagiria com um mecanismo de busca real. Depois, armado com esse conhecimento, ele mesmo gera os documentos, relevantes ou não, que o "LLM aprendiz" (o modelo de política) usará para treinar. Tudo isso sem enviar nenhuma consulta externa durante essa fase de aprendizado intensivo.
Google I/O 2025: A IA dá superpoderes aos desenvolvedores, e isso vai te surpreender!
No coração do ZeroSearch está o aprendizado por reforço (RL). É como ensinar um cachorro a dar a pata dando um petisco a cada acerto. Só que aqui, a IA (o modelo de política) aprende a buscar bem recebendo "recompensas" virtuais quando encontra a informação correta simulada pelo seu parceiro, o LLM de simulação. O grande truque é que toda essa fase de aprendizado intensivo acontece internamente, sem consultar mecanismos de busca externos reais.
O "LLM de simulação" é a pedra angular do ZeroSearch. Após uma fase inicial de ajuste onde ele aprende a imitar o estilo e o tipo de resultados de um mecanismo de busca real (gerando documentos "úteis" e outros, deliberadamente "ruidosos" ou menos relevantes), ele se torna o fornecedor oficial de documentos de treinamento. A ideia é que os LLMs já armazenaram uma quantidade fenomenal de conhecimento durante seu pré-treinamento inicial; a diferença para um mecanismo de busca real estaria principalmente no estilo dos textos retornados.
O ZeroSearch não se contenta em afogar seu aluno em um fluxo de informações. Ele usa uma estratégia de "aprendizado curricular". É como um programa escolar: começa com exercícios fáceis e aumenta gradualmente a dificuldade. O LLM de simulação começa fornecendo documentos claros e de alta qualidade, depois, aos poucos, degrada a qualidade, introduzindo "ruído" e informações mais ambíguas. Isso força o modelo em aprendizado a aprimorar seu senso crítico e sua capacidade de separar o joio do trigo, como deveria fazer diante da selva de informações da web real.
Os resultados anunciados pela Alibaba são impressionantes. Segundo o documento de pesquisa, um modelo ZeroSearch com um LLM de simulação de 14 bilhões de parâmetros teria superado o Google Search em vários testes de perguntas e respostas. Mais concretamente, em uma média de sete bancos de teste, esse ZeroSearch (Qwen-2.5-7B-Instruct com um LLM de simulação SFT-14B) obteve uma pontuação de 33.97, contra 32.47 para uma configuração equivalente usando a API do Google Search. Até um modelo de simulação menor, de 7 bilhões de parâmetros, se saiu melhor que a busca real com uma pontuação de 33.06.
Quando seu site começa a bater papo com IA: NLWeb explicado para sua avó (ou quase)
O grande trunfo do ZeroSearch é seu custo. Treinar uma IA para buscar informações via APIs comerciais como a do Google (via SerpAPI) pode rapidamente se tornar um poço sem fundo financeiro. Para cerca de 64.000 consultas de busca, a conta chegaria a aproximadamente 586,70 dólares. Com o ZeroSearch e seu LLM de simulação de 14 bilhões de parâmetros rodando em quatro GPUs A100, o custo cai para apenas 70,80 dólares. Isso é uma redução de quase 88%! Para estruturas menores ou laboratórios de pesquisa, essa diferença é colossal.
Além da economia, o ZeroSearch levanta uma questão mais fundamental: a autonomia das IAs. Ao aprender a "se googlar" em um ambiente controlado, essas IAs poderiam se aperfeiçoar de forma mais independente, reduzindo sua dependência dos gigantes da tecnologia e de suas APIs caras. É uma perspectiva que poderia "nivelar o campo de jogo", como destaca o relatório, democratizando o acesso à criação de IAs avançadas. A Alibaba inclusive disponibilizou o código, os conjuntos de dados e os modelos pré-treinados em código aberto, para incentivar a comunidade a se apropriar do tema.
Ironicamente, para aprender a prescindir dos mecanismos de busca reais durante seu treinamento intensivo, o LLM de simulação do ZeroSearch ainda precisa, inicialmente, aprender com interações com esses mesmos mecanismos. É uma fase de inicialização indispensável. Assim, mesmo que o objetivo seja a independência, o sistema incorpora indiretamente os padrões e talvez até alguns vieses dos mecanismos existentes.
Você Sabia?
Um dos desafios técnicos do ZeroSearch é ensinar o LLM de simulação a gerar não apenas documentos relevantes, mas também documentos "ruidosos" ou menos úteis. Para isso, os pesquisadores simplesmente modificam algumas palavras no prompt dado ao LLM de simulação, por exemplo, pedindo para gerar um documento "útil" ou, ao contrário, um documento "ruidoso". Um truque simples para um resultado complexo!
Assinatura IA Ultra do Google: quando a inteligência artificial pede (muito) dinheiro do seu bolso
O ZeroSearch é, sem dúvida, um avanço técnico engenhoso que sacode o coqueiro do treinamento de IAs. A promessa de uma redução drástica de custos e de um maior controle sobre o processo de aprendizado é tentadora, especialmente para os menores players do setor. Se essa tecnologia cumprir todas as suas promessas, poderia acelerar a inovação e diversificar o cenário da IA.
Claro, nem tudo são flores. A incapacidade de acessar informações em tempo real ainda é um obstáculo, e os riscos de "colapso do modelo" (onde a IA acaba contando bobagens por se autoalimentar) ou de amplificação de vieses presentes nos dados iniciais são desafios sérios a serem enfrentados.
Então, o ZeroSearch é o futuro coveiro do Google para o treinamento de IAs ou apenas uma (mas engenhosa) otimização? Uma coisa é certa, ao ensinar suas IAs a pescar em seu próprio aquário, a Alibaba nos mostra que, no campo da inteligência artificial, ainda temos muito o que pensar... para economizar nossos próprios neurônios!
Fontes:
https://www.techrepublic.com/article/news-alibaba-zerosearch-ai-training-costs/Jerome
Especialista em desenvolvimento web, SEO e inteligência artificial, a minha experiência prática na criação de sistemas automatizados remonta a 2009. Hoje em dia, além de redigir artigos para decifrar a atualidade e os desafios da IA, desenho soluções à medida e intervenho como consultor e formador para uma IA ética, eficiente e responsável.