Dalla promessa di scrivere codice parlando in francese alla realtà di un'IA performante ma non infallibile, un tuffo nell'universo di Codex, il programmatore virtuale di OpenAI.
E se sviluppare un'applicazione o un sito web diventasse semplice come dettare una ricetta di cucina a un assistente vocale? È un po' la folle promessa dietro OpenAI Codex, un'intelligenza artificiale creata dagli ideatori di ChatGPT, che ambisce a trasformare le nostre parole in righe di codice. Ma allora, le nostre tastiere sono destinate a prendere polvere? Non così in fretta, la storia è un po' più complessa e, ammettiamolo, decisamente più intrigante.
23/05/2025 09:34 JérômeImmaginate un'IA, Codex per l'appunto, che non è altro che un discendente diretto del famoso modello linguistico GPT-3 (sì, quello che alimenta ChatGPT). Tranne che Codex, lui, ha passato il tempo a divorare intere librerie di codice sorgente pubblico, soprattutto dalla piattaforma GitHub. Risultato? Ha imparato a "pensare" e a "parlare" fluentemente diversi linguaggi di programmazione, con una predilezione per Python. Il suo superpotere: capire un'istruzione in linguaggio naturale – un semplice commento in italiano, per esempio – e tradurla in codice funzionante. È questa tecnologia che ha dato vita a GitHub Copilot, l'assistente che sussurra suggerimenti di codice agli sviluppatori. Affascinante, no?
Ma come si fa a sapere se un'IA programma "bene"? I ricercatori di OpenAI hanno dovuto inventare un test di guida appositamente per Codex, chiamato HumanEval. Pensatelo come un esame di codice molto severo: 164 problemi di programmazione, scritti a mano da esseri umani, che l'IA deve risolvere. Ogni soluzione proposta da Codex viene poi automaticamente verificata da una serie di test unitari. È un po' come se chiedessimo all'IA di dimostrare che il suo codice fa esattamente quello che gli è stato chiesto, senza barare.
Lo studio fondatore di Mark Chen e dei suoi colleghi nel 2021, che ha introdotto Codex, ha rivelato cifre piuttosto significative. Su questo famoso HumanEval, la versione più potente di Codex (con 12 miliardi di parametri, perdonate l'understatement) è riuscita a risolvere il 28,8% dei problemi al primo tentativo (è quello che si chiama punteggio pass@1). Per fare un confronto, GPT-3, il suo predecessore più generalista, aveva un punteggio di... 0%. Un altro modello, GPT-J, raggiungeva l'11,4%. Codex dimostrava quindi una vera specializzazione.
L’IA secondo Mary Meeker: il rapporto BOND che scuote la tecnologia (e le nostre certezze)
Un altro concetto chiave emerso da questo studio è quello del pass@k. Dietro questo acronimo un po' barbaro si nasconde un'idea semplice: se si danno all'IA più tentativi per risolvere un problema, le sue possibilità di successo aumentano. Un po' come noi quando ci ostiniamo con un Sudoku! Così, generando 100 proposte di codice per ogni problema del HumanEval, Codex riusciva a trovare una soluzione corretta nel 70,2% dei casi. Comincia a diventare serio! Una versione ancora più raffinata, Codex-S, saliva addirittura al 77,5% in queste condizioni.
Nonostante queste prodezze, il rapporto di Chen e dei suoi coautori sottolineava già nel 2021 che Codex non era un mago. Tra i suoi punti deboli: una tendenza a girare a vuoto di fronte a istruzioni troppo lunghe o complesse, e difficoltà a gestire correttamente l'assegnazione dei valori alle variabili nel codice. In sostanza, un assistente brillante, ma che a volte può commettere errori da principiante.
È qui che tocchiamo un tema cruciale, sollevato anche dallo studio: gli "impatti più ampi".
Un esempio concreto tratto dalle discussioni della comunità nel 2021 illustrava bene questa ambivalenza: un utente era riuscito, con un modello simile a Codex (Davinci-2), a tradurre un algoritmo JavaScript non banale (NestHydrationJS) in Python, un risultato definito "sbalorditivo". Tuttavia, la necessità di una revisione umana e il potenziale di errori sottili rimanevano preoccupazioni.
Google I/O 2025: l’IA nei tuoi occhiali e al volante, la nuova scommessa hardware di Google
Avanti veloce fino a maggio 2025. OpenAI ha annunciato una nuova versione, o meglio una nuova incarnazione di Codex: un "agente Codex" integrato direttamente in ChatGPT per gli utenti professionali. Questo, alimentato da un modello chiamato codex-1 (un'evoluzione di o3), non si limita più a tradurre il linguaggio naturale in codice. Promette di andare oltre: correggere bug, sviluppare intere funzionalità, rispondere a domande su una base di codice esistente, e persino proporre "pull request" (sottomissioni di modifiche al codice, per i non addetti ai lavori).
Una novità importante è il suo ambiente di esecuzione sicuro, detto "sandboxed". È un po' come se l'IA lavorasse in una stanza isolata, senza accesso diretto a Internet mentre esegue i compiti, per limitare i rischi. Un tentativo di risposta alle preoccupazioni passate sulla sicurezza.
L'arrivo di questi strumenti ultraperformanti solleva inevitabilmente la domanda: gli sviluppatori umani hanno ancora un posto? Se si crede a OpenAI e alle prime analisi, Codex si posiziona più come un "collega virtuale" o un "tirocinante junior sotto steroidi" (come lo hanno descritto alcuni feedback della comunità) che come un sostituto totale. L'idea sarebbe quella di delegare i compiti ripetitivi o dispendiosi in termini di tempo all'IA per concentrarsi sulla progettazione, l'architettura e la validazione.
Il paradosso è che queste IA sono addestrate su milioni di righe di codice pubblico, spesso provenienti da progetti open source a cui gli umani hanno contribuito. Vedremo un'IA superare i suoi maestri grazie al loro stesso lavoro? È uno dei tanti dibattiti appassionanti sollevati da questa rivoluzione.
Lo sapevate?
Secondo lo studio pubblicato su Arxiv, il modello Codex originale è stato addestrato su 159 gigabyte di codice Python provenienti da 54 milioni di repository GitHub pubblici! Una vera e propria indigestione di codice per diventare così performante.
Assistente Google: la fine di un’era, Gemini e l’IA prendono il testimone con intelligenza
OpenAI Codex, nelle sue diverse incarnazioni, rappresenta un avanzamento tecnologico indubbio. Da semplice traduttore da linguaggio naturale a codice a un agente capace di intervenire più ampiamente nel ciclo di sviluppo, incarna la crescente potenza delle IA generative. Se la promessa di automatizzare alcune parti noiose della programmazione è allettante, le questioni di affidabilità, sicurezza, etica e impatto sull'occupazione rimangono in primo piano. Una cosa è certa: il lavoro dello sviluppatore è in piena trasformazione, e la collaborazione uomo-macchina sembra essere la nuova melodia del codice.
Resta da vedere se Codex imparerà un giorno a fare il caffè... o se si accontenterà di programmare la macchina che lo fa alla perfezione!
Jerome
Esperto in sviluppo web, SEO e intelligenza artificiale, la mia esperienza pratica nella creazione di sistemi automatizzati risale al 2009. Oggi, oltre a redigere articoli per decifrare l'attualità e le sfide dell'IA, progetto soluzioni su misura e intervengo come consulente e formatore per un'IA etica, efficiente e responsabile.