Od obietnicy pisania kodu mówiąc po francusku do rzeczywistości sprawnej, ale nie nieomylnej sztucznej inteligencji – zanurz się w świat Codexa, wirtualnego programisty od OpenAI.
A co jeśli tworzenie aplikacji lub strony internetowej stałoby się tak proste, jak dyktowanie przepisu kulinarnego asystentowi głosowemu? To właśnie ta szalona obietnica stoi za OpenAI Codex, sztuczną inteligencją stworzoną przez twórców ChatGPT, która ma ambicję zamieniać nasze słowa w linie kodu. Ale czy to oznacza, że nasze klawiatury skazane są na pokrycie się kurzem? Nie tak szybko, historia jest nieco bardziej złożona i, przyznajmy, znacznie bardziej fascynująca.
24/05/2025 04:49 JérômeWyobraźcie sobie sztuczną inteligencję – Codex – która jest bezpośrednim potomkiem słynnego modelu językowego GPT-3 (tego samego, który napędza ChatGPT). Ale Codex spędził czas, pochłaniając całe biblioteki publicznego kodu źródłowego, głównie z platformy GitHub. Efekt? Nauczył się „myśleć” i „mówić” płynnie w wielu językach programowania, z wyraźną preferencją dla Pythona. Jego supermoc? Rozumienie instrukcji w języku naturalnym – na przykład zwykłego komentarza po francusku – i tłumaczenie jej na działający kod. To właśnie ta technologia dała życie GitHub Copilot, asystentowi podpowiadającemu rozwiązania programistom. Fascynujące, prawda?
Ale jak sprawdzić, czy SI programuje „dobrze”? Badacze z OpenAI musieli wymyślić specjalny test – HumanEval. Wyobraźcie go sobie jako bardzo wymagający egzamin: 164 zadania programistyczne, napisane ręcznie przez ludzi, które SI musi rozwiązać. Każde rozwiązanie zaproponowane przez Codexa jest automatycznie weryfikowane przez serię testów jednostkowych. To trochę jak proszenie SI, by udowodniła, że jej kod robi dokładnie to, co powinien, bez oszukiwania.
Przełomowe badanie Marka Chena i jego współpracowników z 2021 roku, które wprowadziło Codexa, ujawniło ciekawe liczby. W HumanEval najpotężniejsza wersja Codexa (z 12 miliardami parametrów, proszę bardzo) rozwiązała za pierwszym razem 28,8% problemów (tzw. wynik pass@1). Dla porównania, GPT-3, jego bardziej ogólny poprzednik, osiągnął wynik... 0%. Inny model, GPT-J, uzyskał 11,4%. Codex wykazał więc wyraźną specjalizację.
Jak wykorzystać ChatGPT do znalezienia kolejnego serialu na Netflix?
Innym kluczowym pojęciem z tego badania jest pass@k. Za tym nieco enigmatycznym skrótem kryje się prosta idea: jeśli damy SI kilka prób na rozwiązanie problemu, jej szanse na sukces rosną. Trochę jak u nas, gdy uparcie rozwiązujemy sudoku! Generując 100 propozycji kodu dla każdego zadania w HumanEval, Codex znalazł poprawne rozwiązanie w 70,2% przypadków. To zaczyna być poważne! Jeszcze bardziej dopracowana wersja, Codex-S, osiągnęła nawet 77,5% w tych warunkach.
Mimo tych osiągnięć, raport Chena i współautorów już w 2021 roku podkreślał, że Codex nie jest czarodziejem. Wśród jego słabości: tendencja do „grzęźnięcia” przy zbyt długich lub skomplikowanych instrukcjach oraz problemy z właściwym przypisywaniem wartości zmiennych w kodzie. W skrócie: bystry asystent, który czasem popełnia błędy typowe dla początkujących.
Tu dotykamy kluczowego zagadnienia, również poruszonego w badaniu: „szerszych skutków”.
Konkretny przykład z dyskusji społeczności w 2021 roku dobrze ilustrował tę ambiwalencję: użytkownik, korzystając z modelu podobnego do Codexa (Davinci-2), przetłumaczył nietrywialny algorytm JavaScript (NestHydrationJS) na Python, co określono jako „oszałamiające”. Jednak konieczność ludzkiej recenzji i ryzyko subtelnych błędów pozostawały istotnymi obawami.
Przeskoczmy do maja 2025 roku. OpenAI zapowiedziało nową wersję – a raczej nową inkarnację – Codexa: „agenta Codex” zintegrowanego bezpośrednio z ChatGPT dla profesjonalistów. Napędzany modelem o nazwie codex-1 (ewolucja o3), nie ogranicza się już tylko do tłumaczenia języka naturalnego na kod. Obiecuje więcej: poprawianie błędów, rozwijanie całych funkcjonalności, odpowiadanie na pytania dotyczące istniejącego kodu, a nawet proponowanie „pull requests” (propozycji zmian w kodzie, dla niewtajemniczonych).
Ważną nowością jest jego bezpieczne środowisko wykonawcze, tzw. „sandboxed”. To tak, jakby SI pracowała w odizolowanym pomieszczeniu, bez bezpośredniego dostępu do internetu podczas wykonywania zadań, aby ograniczyć ryzyko. Próba odpowiedzi na wcześniejsze obawy dotyczące bezpieczeństwa.
Pojawienie się tych superwydajnych narzędzi nieuchronnie nasuwa pytanie: czy ludzcy programiści są jeszcze potrzebni? Jeśli wierzyć OpenAI i pierwszym analizom, Codex ma być raczej „wirtualnym kolegą” lub „stażystą juniorem na sterydach” (jak opisali to niektórzy użytkownicy) niż całkowitym zastępcą. Chodzi o delegowanie powtarzalnych lub czasochłonnych zadań do SI, aby skupić się na projektowaniu, architekturze i walidacji.
Paradoks polega na tym, że te SI są szkolone na milionach linii publicznego kodu, często pochodzącego z projektów open source, do których przyczynili się ludzie. Czy zobaczymy, jak SI przewyższa swoich mistrzów dzięki ich własnej pracy? To jeden z wielu pasjonujących tematów, które rodzi ta rewolucja.
Czy wiedzieliście?
Według badania opublikowanego na Arxiv, oryginalny model Codex był szkolony na 159 gigabajtach kodu Pythona z 54 milionów publicznych repozytoriów GitHub! Prawdziwa „przeżutka” kodu, by stać się tak wydajnym.
Notatnik: od prostego edytora tekstu do asystenta AI – niespodziewana metamorfoza Windowsa
OpenAI Codex, w swoich różnych wcieleniach, reprezentuje niezaprzeczalny postęp technologiczny. Od prostego tłumacza języka naturalnego na kod do agenta zdolnego szerzej ingerować w cykl rozwoju, uosabia rosnącą moc generatywnych SI. Choć obietnica automatyzacji żmudnych części kodowania jest kusząca, kwestie niezawodności, bezpieczeństwa, etyki i wpływu na zatrudnienie pozostają kluczowe. Jedno jest pewne: zawód programisty przechodzi transformację, a współpraca człowiek-maszyna wydaje się nową melodią kodowania.
Pozostaje pytanie, czy Codex nauczy się kiedyś robić kawę... czy zadowoli się zaprogramowaniem maszyny, która robi to perfekcyjnie!
Jerome
Ekspert w dziedzinie tworzenia stron internetowych, SEO i sztucznej inteligencji, moje praktyczne doświadczenie w tworzeniu zautomatyzowanych systemów sięga 2009 roku. Dziś, oprócz pisania artykułów mających na celu rozszyfrowywanie aktualności i wyzwań AI, projektuję rozwiązania szyte na miarę oraz działam jako konsultant i szkoleniowiec w zakresie etycznej, wydajnej i odpowiedzialnej AI.