Clock IA > OpenAI Codex: Den AI, der koder for dig, mellem genistreg og virkelig hovedbrud

OpenAI Codex: Den AI, der drømmer om at kode for dig (og nogle gange er det et mareridt)

Fra løftet om at skrive kode ved at tale fransk til virkeligheden af en effektiv men ikke ufejlbarlig AI – en dykkertur ind i universet af Codex, OpenAIs virtuelle programmør.

Hvad nu hvis udviklingen af en app eller en hjemmeside blev lige så simpelt som at diktere en kageopskrift til en stemmeassistent? Det er lidt det vilde løfte bag OpenAI Codex, en kunstig intelligens skabt af folkene bag ChatGPT, som har til formål at omdanne vores ord til kodelinjer. Men betyder det så, at vores tastaturer er dømt til at stå og samle støv? Ikke så hurtigt, historien er lidt mere kompleks og, lad os indrømme det, langt mere spændende.

24/05/2025 16:03 Jérôme

Codex: ChatGPTs storebror, der taler Python

Forestil dig en AI, Codex, som ikke er andet end en direkte efterkommer af den berømte sprogmodel GPT-3 (ja, den samme, der driver ChatGPT). Men i modsætning til ChatGPT har Codex brugt sin tid på at fortære hele biblioteker af offentlig kildekode, især fra platformen GitHub. Resultatet? Den har lært at "tænke" og "tale" flere programmeringssprog flydende, med en forkærlighed for Python. Dens superkraft: at forstå en instruks på naturligt sprog – en simpel kommentar på dansk, for eksempel – og oversætte den til funktionel kode. Det er denne teknologi, der blandt andet har ført til GitHub Copilot, den assistent, der hvisker kodeforslag til udviklere. Fascinerende, ikke?

HumanEval: kørekortet for AI-kodere

Men hvordan ved man, om en AI koder "godt"? Forskere fra OpenAI måtte opfinde en særlig køreprøve til Codex, kaldet HumanEval. Tænk på det som en meget streng kodeeksamen: 164 programmeringsproblemer, skrevet for hånd af mennesker, som AI'en skal løse. Hver løsning, som Codex foreslår, bliver automatisk kontrolleret af en række unit tests. Det er lidt som at bede AI'en om at bevise, at dens kode gør præcis, hvad der er bedt om, uden at snyde.

Den grundlæggende undersøgelse fra Mark Chen og hans kolleger i 2021, der introducerede Codex, afslørede nogle ret talende tal. På denne berømte HumanEval klarede den mest avancerede version af Codex (med 12 milliarder parametre, ikke dårligt) at løse 28,8 % af problemerne på første forsøg (dette kaldes pass@1-scoren). Til sammenligning scorede GPT-3, dens mere alsidige forgænger, ... 0 %. En anden model, GPT-J, nåede 11,4 %. Codex viste altså en reel specialisering.

Når din hjemmeside begynder at sludre med AI: NLWeb forklaret til din bedstemor (næsten)

Jo flere forsøg, jo bedre klarer Codex sig (næsten)

Et andet centralt koncept fra denne undersøgelse er pass@k. Bag dette lidt barske akronym gemmer sig en simpel idé: Hvis man giver AI'en flere forsøg på at løse et problem, stiger dens chancer for succes. Lidt som os, når vi kæmper med en Sudoku! Ved at generere 100 kodeforslag til hvert problem i HumanEval lykkedes det Codex at finde en korrekt løsning i 70,2 % af tilfældene. Det begynder at blive seriøst! En yderligere forbedret version, Codex-S, nåede endda op på 77,5 % under disse betingelser.

AI-koderen: mellem geniale indfald og fiaskoer

På trods af disse bedrifter understregede Chen og hans medforfattere allerede i 2021, at Codex ikke var en tryllekunstner. Blandt dens svagheder: en tendens til at køre i ring, når instruktionerne bliver for lange eller komplekse, og problemer med korrekt at håndtere tildeling af værdier til variabler i koden. Kort sagt, en brilliant assistent, der af og til kan lave begynderfejl.

Det er her, vi støder på et større problem, som undersøgelsen også belyste: de "bredere konsekvenser".

Sikkerhed: Kan AI-genereret kode, selvom den ser ud til at fungere, skjule sikkerhedshuller? Undersøgelsen viste, at Codex kunne foreslå kryptografiske konfigurationer, der tydeligt var usikre. Uf.
Pålidelighed og overmod: Hvis AI'en tager fejl, vil mennesket altid opdage det, især hvis det er en nybegynder? Risikoen for at stole for meget på dens forslag er reel.
Bias: Ligesom enhver AI, der er trænet på enorme mængder data fra internettet, er Codex ikke immun over for at reproducere bias i disse data, uanset om det er i kodekommentarer eller dens struktur.
Økonomisk indvirkning: Kunne Codex gøre udviklere forældede? Undersøgelsen fra 2021 antydede, at selvom produktiviteten kunne øges, involverer softwareudvikling meget mere end blot at skrive kode. Spørgsmålet om udviklingen af jobbet, eller endda forsvinden af visse juniorstillinger, blev dog rejst.

Et konkret eksempel fra fællesskabets diskussioner i 2021 illustrerede denne ambivalens godt: en bruger havde med en model tæt på Codex (Davinci-2) formået at oversætte en ikke-triviel JavaScript-algoritme (NestHydrationJS) til Python, et resultat, der blev betegnet som "imponerende". Men behovet for menneskelig gennemgang og potentialet for subtile fejl forblev bekymringer.

Grok, Elon Musks AI, og dens selektive hukommelse om Holocaust: Skyldes det en "fejl"?

Næste generations Codex: den (stadig) klogere agent?

Spring frem til maj 2025. OpenAI har annonceret en ny version, eller rettere en ny inkarnation af Codex: en "Codex-agent" integreret direkte i ChatGPT til professionelle brugere. Denne, drevet af en model kaldet codex-1 (en udvikling af o3), nøjes ikke længere med at oversætte naturligt sprog til kode. Den lover at gå længere: rette fejl, udvikle hele funktioner, besvare spørgsmål om eksisterende kodebaser og endda foreslå "pull requests" (forslag til kodeændringer, for de uindviede).

En vigtig nyhed er dens sikre udførelsesmiljø, kaldet "sandboxed". Det er lidt som om, AI'en arbejder i et isoleret rum uden direkte adgang til internettet, mens den udfører opgaver, for at begrænse risici. Et forsøg på at imødegå tidligere bekymringer om sikkerhed.

Så er det slut med menneskelige udviklere?

Ankomsten af disse ultra-effektive værktøjer rejser uundgåeligt spørgsmålet: er der stadig plads til menneskelige udviklere? Hvis man skal tro OpenAI og de første analyser, positionerer Codex sig mere som en "virtuel kollega" eller en "juniorpraktikant på steroider" (som nogle i fællesskabet har beskrevet det) end som en fuldstændig erstatning. Ideen ville være at delegere repetitive eller tidskrævende opgaver til AI'en for at fokusere på design, arkitektur og validering.

Paradokset er, at disse AI'er er trænet på millioner af linjer offentlig kode, ofte fra open source-projekter, som mennesker har bidraget til. Vil vi se en AI overgå sine mestre takket være deres eget arbejde? Det er en af de mange spændende debatter, denne revolution har sat i gang.

Vidste du?

Ifølge undersøgelsen publiceret på Arxiv, blev den originale Codex-model trænet på 159 gigabyte Python-kode fra 54 millioner offentlige GitHub-depoter! En virkelig kodemæssig overbelastning for at blive så effektiv.

Capgemini, SAP og Mistral AI: den nye alliance for generativ AI under strengt opsyn

OpenAI Codex, i dens forskellige inkarnationer, repræsenterer en utvivlsom teknologisk fremskridt. Fra en simpel oversætter af naturligt sprog til kode til en agent, der kan deltage bredere i udviklingscyklussen, illustrerer den den stigende kraft af generative AI'er. Mens løftet om at automatisere visse kedelige dele af kodning er tiltalende, forbliver spørgsmål om pålidelighed, sikkerhed, etik og indvirkning på beskæftigelse i forgrunden. En ting er sikker: udviklerjobbet er under forandring, og samarbejdet mellem menneske og maskine synes at være den nye melodi i kodningens verden.

Spørgsmålet er bare, om Codex nogensinde lærer at lave kaffe... eller om den nøjes med at kode maskinen, der gør det perfekt!

Jerome

Ekspert i webudvikling, SEO og kunstig intelligens, min praktiske erfaring med at skabe automatiserede systemer går tilbage til 2009. I dag, udover at skrive artikler for at afkode aktualiteter og udfordringer inden for AI, designer jeg skræddersyede løsninger og fungerer som konsulent og underviser for en etisk, effektiv og ansvarlig AI.

Facebook - X (Twitter) - Linkedin

Clock IA > OpenAI Codex: Den AI, der koder for dig, mellem genistreg og virkelig hovedbrud

11/08/2025 18:32

Dine tanker til salg? Neuroteknologienes gåde i AI-tidsalderen

09/06/2025 16:33

Hugging Face: hvordan en fransk-amerikansk startup blev "GitHub" for kunstig intelligens

04/06/2025 19:17

Når AI lærer at lyve: en tech-gudfar udtrykker bekymring

01/06/2025 22:18

Lokal AI: Google udgiver stille og roligt en app, der sætter digitale hjerner i din smartphone