Costi di addestramento dell'IA ridotti di quasi dieci volte e prestazioni che competono, se non superano, quelle di Google Search? Questa è la promessa di ZeroSearch, il nuovo stratagemma di Alibaba per rendere le sue intelligenze artificiali più autonome.
E se la tua intelligenza artificiale non avesse più bisogno di Google per diventare più intelligente? Questa è un po' l'idea folle (ma geniale) alla base di ZeroSearch, una tecnologia sviluppata dai ricercatori di Alibaba. Immagina: invece di bombardare i motori di ricerca esterni con milioni di richieste costose per apprendere, l'IA ora si allena in un circuito chiuso, nel proprio sandbox digitale. Una piccola rivoluzione che potrebbe cambiare le regole del gioco nel mondo dell'IA.
23/05/2025 07:32 JérômeIl segreto di ZeroSearch? Un grande modello linguistico (LLM) – questi cervelli digitali che alimentano IA come ChatGPT – ne allena un altro per diventare un esperto nella ricerca di informazioni. Immaginalo come un vecchio saggio che insegna l'arte della biblioteca a un giovane discepolo, ma senza mai mettere piede in una vera biblioteca! Questo "LLM di simulazione" impara prima osservando come un umano interagirebbe con un vero motore di ricerca. Poi, armato di questa conoscenza, genera da solo i documenti, pertinenti o meno, che il "LLM allievo" (il modello di policy) utilizzerà per allenarsi. Il tutto, senza mai inviare la minima richiesta all'esterno durante questa fase di apprendimento intensivo.
ChatGPT, coach d’amore: l’IA può davvero decifrare i nostri cuori (e i nostri messaggi)?
Al cuore di ZeroSearch c'è l'apprendimento per rinforzo (RL). È un po' come insegnare a un cane a fare il bello dandogli un premio a ogni successo. Solo che qui, l'IA (il modello di policy) impara a cercare bene ricevendo "ricompense" virtuali quando trova l'informazione corretta simulata dal suo compagno, il LLM di simulazione. Il grande trucco è che tutta questa fase di apprendimento intensivo avviene internamente, senza sollecitare motori di ricerca esterni reali.
Il "LLM di simulazione" è la pietra angolare di ZeroSearch. Dopo una fase iniziale di adattamento in cui impara a emulare lo stile e il tipo di risultati di un vero motore di ricerca (generando documenti "utili" e altri, volutamente "rumorosi" o meno pertinenti), diventa il fornitore ufficiale di documenti di allenamento. L'idea è che i LLM hanno già immagazzinato una quantità fenomenale di conoscenze durante il loro pre-allenamento iniziale; la differenza con un motore di ricerca reale risiederebbe soprattutto nello stile dei testi restituiti.
ZeroSearch non si limita a sommergere il suo allievo sotto un flusso di informazioni. Utilizza una strategia di "apprendimento curriculare". È come un programma scolastico: si inizia con esercizi facili, poi si aumenta gradualmente la difficoltà. Il LLM di simulazione inizia fornendo documenti chiari e di alta qualità, poi, poco a poco, ne degrada la qualità, introducendo "rumore" e informazioni più ambigue. Ciò costringe il modello in apprendimento ad affinare il suo spirito critico e la capacità di separare il buono dal cattivo, come dovrebbe fare di fronte alla giungla di informazioni del web reale.
I risultati annunciati da Alibaba sono da far sollevare le sopracciglia. Secondo il documento di ricerca, un modello ZeroSearch con un LLM di simulazione da 14 miliardi di parametri avrebbe superato Google Search in diversi test di domande-risposte. Più concretamente, su una media di sette banchi di prova, questo ZeroSearch (Qwen-2.5-7B-Instruct con un LLM di simulazione SFT-14B) ha ottenuto un punteggio di 33.97, contro 32.47 per una configurazione equivalente che utilizza l'API Google Search. Persino un modello di simulazione più piccolo, da 7 miliardi di parametri, ha fatto meglio della ricerca reale con un punteggio di 33.06.
L'argomento schiacciante di ZeroSearch è il suo costo. Allenare un'IA a cercare informazioni tramite API commerciali come quella di Google (via SerpAPI) può diventare rapidamente un buco nero finanziario. Per circa 64.000 richieste di ricerca, il conto salirebbe a circa 586,70 dollari. Con ZeroSearch e il suo LLM di simulazione da 14 miliardi di parametri in esecuzione su quattro GPU A100, il costo scende a soli 70,80 dollari. Una riduzione di quasi l'88%! Per le strutture più piccole o i laboratori di ricerca, questa differenza è colossale.
Oltre ai risparmi, ZeroSearch solleva una questione più fondamentale: quella dell'autonomia delle IA. Imparando a "googlare se stesse" in un ambiente controllato, queste IA potrebbero perfezionarsi in modo più indipendente, riducendo la loro dipendenza dai giganti tecnologici e dalle loro costose API. È una prospettiva che potrebbe "livellare il campo di gioco", come sottolinea il rapporto, democratizzando l'accesso alla creazione di IA avanzate. Alibaba ha inoltre reso open source il codice, i dataset e i modelli pre-allenati, per incoraggiare la comunità a impadronirsi del tema.
Ironia della sorte, per imparare a fare a meno dei motori di ricerca reali durante il suo allenamento intensivo, il LLM di simulazione di ZeroSearch deve comunque, inizialmente, imparare dalle interazioni con questi stessi motori. È una fase di avviamento indispensabile. Quindi, anche se l'obiettivo è l'indipendenza, il sistema integra indirettamente gli schemi e forse anche alcuni pregiudizi dei motori esistenti.
Lo sapevi?
Una delle sfide tecniche di ZeroSearch è insegnare al LLM di simulazione a generare non solo documenti pertinenti ma anche documenti "rumorosi" o meno utili. Per farlo, i ricercatori modificano semplicemente alcune parole nel prompt dato al LLM di simulazione, ad esempio chiedendogli di generare un documento "utile" o, al contrario, un documento "rumoroso". Un trucco semplice per un risultato complesso!
Quando il tuo sito web inizia a chiacchierare con l’IA: NLWeb spiegato a tua nonna (o quasi)
ZeroSearch è senza dubbio un'innovazione tecnica astuta che scuote il mondo dell'allenamento delle IA. La promessa di una drastica riduzione dei costi e di un maggiore controllo sul processo di apprendimento è allettante, soprattutto per i piccoli attori del settore. Se questa tecnologia manterrà tutte le sue promesse, potrebbe accelerare l'innovazione e diversificare il panorama dell'IA.
Ovviamente, non tutto è rose e fiori. L'incapacità di accedere a informazioni in tempo reale rimane una spina nel fianco, e i rischi di "collasso del modello" (dove l'IA finisce per dire sciocchezze nutrendosi solo di se stessa) o di amplificazione dei pregiudizi presenti nei dati iniziali sono sfide serie da affrontare.
Quindi, ZeroSearch, futuro becchino di Google per l'allenamento delle IA o semplice (ma ingegnosa) ottimizzazione? Una cosa è certa, insegnando alle sue IA a pescare da sole nel proprio vaso, Alibaba ci dimostra che, in materia di intelligenza artificiale, non abbiamo finito di scervellarci... per risparmiare i nostri!
Fonti:
https://www.techrepublic.com/article/news-alibaba-zerosearch-ai-training-costs/Jerome
Esperto in sviluppo web, SEO e intelligenza artificiale, la mia esperienza pratica nella creazione di sistemi automatizzati risale al 2009. Oggi, oltre a redigere articoli per decifrare l'attualità e le sfide dell'IA, progetto soluzioni su misura e intervengo come consulente e formatore per un'IA etica, efficiente e responsabile.