Fra løftet om at skrive kode ved at tale fransk til virkeligheden af en effektiv men ikke ufejlbarlig AI – en dykkertur ind i universet af Codex, OpenAIs virtuelle programmør.
Hvad nu hvis udviklingen af en app eller en hjemmeside blev lige så simpelt som at diktere en kageopskrift til en stemmeassistent? Det er lidt det vilde løfte bag OpenAI Codex, en kunstig intelligens skabt af folkene bag ChatGPT, som har til formål at omdanne vores ord til kodelinjer. Men betyder det så, at vores tastaturer er dømt til at stå og samle støv? Ikke så hurtigt, historien er lidt mere kompleks og, lad os indrømme det, langt mere spændende.
24/05/2025 16:03 JérômeForestil dig en AI, Codex, som ikke er andet end en direkte efterkommer af den berømte sprogmodel GPT-3 (ja, den samme, der driver ChatGPT). Men i modsætning til ChatGPT har Codex brugt sin tid på at fortære hele biblioteker af offentlig kildekode, især fra platformen GitHub. Resultatet? Den har lært at "tænke" og "tale" flere programmeringssprog flydende, med en forkærlighed for Python. Dens superkraft: at forstå en instruks på naturligt sprog – en simpel kommentar på dansk, for eksempel – og oversætte den til funktionel kode. Det er denne teknologi, der blandt andet har ført til GitHub Copilot, den assistent, der hvisker kodeforslag til udviklere. Fascinerende, ikke?
Men hvordan ved man, om en AI koder "godt"? Forskere fra OpenAI måtte opfinde en særlig køreprøve til Codex, kaldet HumanEval. Tænk på det som en meget streng kodeeksamen: 164 programmeringsproblemer, skrevet for hånd af mennesker, som AI'en skal løse. Hver løsning, som Codex foreslår, bliver automatisk kontrolleret af en række unit tests. Det er lidt som at bede AI'en om at bevise, at dens kode gør præcis, hvad der er bedt om, uden at snyde.
Den grundlæggende undersøgelse fra Mark Chen og hans kolleger i 2021, der introducerede Codex, afslørede nogle ret talende tal. På denne berømte HumanEval klarede den mest avancerede version af Codex (med 12 milliarder parametre, ikke dårligt) at løse 28,8 % af problemerne på første forsøg (dette kaldes pass@1-scoren). Til sammenligning scorede GPT-3, dens mere alsidige forgænger, ... 0 %. En anden model, GPT-J, nåede 11,4 %. Codex viste altså en reel specialisering.
Mary Meekers AI: BOND-rapporten der ryster tech-verdenen (og vores overbevisninger)
Et andet centralt koncept fra denne undersøgelse er pass@k. Bag dette lidt barske akronym gemmer sig en simpel idé: Hvis man giver AI'en flere forsøg på at løse et problem, stiger dens chancer for succes. Lidt som os, når vi kæmper med en Sudoku! Ved at generere 100 kodeforslag til hvert problem i HumanEval lykkedes det Codex at finde en korrekt løsning i 70,2 % af tilfældene. Det begynder at blive seriøst! En yderligere forbedret version, Codex-S, nåede endda op på 77,5 % under disse betingelser.
På trods af disse bedrifter understregede Chen og hans medforfattere allerede i 2021, at Codex ikke var en tryllekunstner. Blandt dens svagheder: en tendens til at køre i ring, når instruktionerne bliver for lange eller komplekse, og problemer med korrekt at håndtere tildeling af værdier til variabler i koden. Kort sagt, en brilliant assistent, der af og til kan lave begynderfejl.
Det er her, vi støder på et større problem, som undersøgelsen også belyste: de "bredere konsekvenser".
Et konkret eksempel fra fællesskabets diskussioner i 2021 illustrerede denne ambivalens godt: en bruger havde med en model tæt på Codex (Davinci-2) formået at oversætte en ikke-triviel JavaScript-algoritme (NestHydrationJS) til Python, et resultat, der blev betegnet som "imponerende". Men behovet for menneskelig gennemgang og potentialet for subtile fejl forblev bekymringer.
GPT-4.1 på ChatGPT: mindre snak, mere effektivitet til AI-professionelle
Spring frem til maj 2025. OpenAI har annonceret en ny version, eller rettere en ny inkarnation af Codex: en "Codex-agent" integreret direkte i ChatGPT til professionelle brugere. Denne, drevet af en model kaldet codex-1 (en udvikling af o3), nøjes ikke længere med at oversætte naturligt sprog til kode. Den lover at gå længere: rette fejl, udvikle hele funktioner, besvare spørgsmål om eksisterende kodebaser og endda foreslå "pull requests" (forslag til kodeændringer, for de uindviede).
En vigtig nyhed er dens sikre udførelsesmiljø, kaldet "sandboxed". Det er lidt som om, AI'en arbejder i et isoleret rum uden direkte adgang til internettet, mens den udfører opgaver, for at begrænse risici. Et forsøg på at imødegå tidligere bekymringer om sikkerhed.
Ankomsten af disse ultra-effektive værktøjer rejser uundgåeligt spørgsmålet: er der stadig plads til menneskelige udviklere? Hvis man skal tro OpenAI og de første analyser, positionerer Codex sig mere som en "virtuel kollega" eller en "juniorpraktikant på steroider" (som nogle i fællesskabet har beskrevet det) end som en fuldstændig erstatning. Ideen ville være at delegere repetitive eller tidskrævende opgaver til AI'en for at fokusere på design, arkitektur og validering.
Paradokset er, at disse AI'er er trænet på millioner af linjer offentlig kode, ofte fra open source-projekter, som mennesker har bidraget til. Vil vi se en AI overgå sine mestre takket være deres eget arbejde? Det er en af de mange spændende debatter, denne revolution har sat i gang.
Vidste du?
Ifølge undersøgelsen publiceret på Arxiv, blev den originale Codex-model trænet på 159 gigabyte Python-kode fra 54 millioner offentlige GitHub-depoter! En virkelig kodemæssig overbelastning for at blive så effektiv.
Duolingo satser på AI: uglen fylder løs!
OpenAI Codex, i dens forskellige inkarnationer, repræsenterer en utvivlsom teknologisk fremskridt. Fra en simpel oversætter af naturligt sprog til kode til en agent, der kan deltage bredere i udviklingscyklussen, illustrerer den den stigende kraft af generative AI'er. Mens løftet om at automatisere visse kedelige dele af kodning er tiltalende, forbliver spørgsmål om pålidelighed, sikkerhed, etik og indvirkning på beskæftigelse i forgrunden. En ting er sikker: udviklerjobbet er under forandring, og samarbejdet mellem menneske og maskine synes at være den nye melodi i kodningens verden.
Spørgsmålet er bare, om Codex nogensinde lærer at lave kaffe... eller om den nøjes med at kode maskinen, der gør det perfekt!
Jerome
Ekspert i webudvikling, SEO og kunstig intelligens, min praktiske erfaring med at skabe automatiserede systemer går tilbage til 2009. I dag, udover at skrive artikler for at afkode aktualiteter og udfordringer inden for AI, designer jeg skræddersyede løsninger og fungerer som konsulent og underviser for en etisk, effektiv og ansvarlig AI.