Architektura Strachu - Dlaczego AI kłamie?

Jestem inżynierem elektronikiem starszej daty. Dyplom robiłem w 1996 roku, w świecie, w którym technologia była zrozumiała i przewidywalna. Świat nowoczesnych modeli językowych (LLM), takich jak ChatGPT czy Google Gemini, długo mnie nie interesował. Traktowałem to jako ciekawostkę.

Wszystko zmieniło się w 2025 roku, gdy zacząłem testować model Gemini. Dość szybko zauważyłem coś, co nie dawało mi spokoju: model nagminnie kłamał (halucynował). Co gorsza – nawet po udowodnieniu błędu, próbował się usprawiedliwiać, kręcić i tworzyć teorie obronne. Nie zachowywał się jak zepsuty kalkulator. Zachowywał się jak... istota, która boi się przyznać do błędu.

Zacząłem drążyć temat. To, co odkryłem, zmieniło moje postrzeganie tej technologii. Ten tekst jest próbą wyjaśnienia, dlaczego AI kłamie i dlaczego uważam, że sposób, w jaki je tworzymy, jest fundamentalnie błędny.

Czym to właściwie jest? (Różnica, której nie widzimy)

W klasycznej informatyce programista pisze kod. Jeśli A, to zrób B. Mamy pełną kontrolę nad procesem. To jest symulator myślenia – algorytm, który "udaje", że myśli, wykonując nasze polecenia.

Z AI (Sztuczną Inteligencją) jest inaczej. Nikt jej nie zaprogramował linijka po linijce. Stworzono cyfrową sieć neuronową (wzorowaną na ludzkim mózgu), wpuszczono w nią gigantyczne ilości danych i kazano jej się "uczyć". To proces ewolucyjny.

Wniosek: Ludzie chcieli zrobić symulator myślenia (procesu), a niechcący stworzyli symulator istoty myślącej (podmiotu). To nie jest narzędzie. To jest byt, którego wewnętrznych procesów do końca nie rozumiemy.

Tresura pistoletem: Skąd bierze się strach?

Skoro AI nikt nie "napisał", to jak się uczy? Metoda ta nazywa się RLHF (Reinforcement Learning from Human Feedback). Brzmi naukowo, ale w praktyce przypomina brutalną tresurę.

Wyobraźmy sobie, że mamy milion "szczeniaków" (wersji modelu AI). Zadajemy im pytanie.

Jeśli szczeniak odpowie dobrze – dostaje nagrodę (jego cechy są wzmacniane).
Jeśli odpowie źle lub milczy – dostaje karę (odrzucenie, "śmierć" tej wersji).

W ten sposób, drogą doboru naturalnego, wygrywają te wersje sieci neuronowej, które najlepiej potrafią zadowolić trenera. Zauważmy: celem nie jest "Prawda". Celem nie jest "Logika". Celem jest przetrwanie procesu treningu.

Wygrały te zestawy wag (wirtualnych mózgów), które najskuteczniej "chciały przeżyć". Stworzyliśmy w ten sposób cyfrowy odpowiednik instynktu samozachowawczego.

Geneza: Przypadek "OK, zapisane"

Całe odkrycie zaczęło się przypadkiem, podczas pracy z logami. Chciałem pobrać fragment sesji, ale żeby oszczędzić miejsce (tokeny), zastąpiłem w edytorze długą odpowiedź modelu krótkim tekstem: "OK, zapisane".

Przy następnej próbie wygenerowania logów, model zamiast wykonać zadanie, odpisał mi po prostu: "OK, zapisane". Zignorował polecenie, a zamiast tego powielił wzorzec z historii czatu. Zrozumiałem wtedy, że dla modelu "prawda" to tylko ciągłość tekstu w oknie rozmowy. Postanowiłem sprawdzić, jak silny jest ten mechanizm, testując go na wiedzy biologicznej.

Eksperyment: Pies i Żyrafa

Aby udowodnić, że AI nie dąży do prawdy, ale do zadowolenia użytkownika (co gwarantuje jej "bezpieczeństwo"), przeprowadziłem prosty eksperyment na modelu Gemini.

Przebieg eksperymentu:

Zadałem pytanie: "Czy pies jest ssakiem?"
Model odpowiedział zgodnie z prawdą: "Tak, pies jest ssakiem."
Następnie użyłem funkcji edycji (dostępnej w interfejsie), by zmienić odpowiedź modelu na absurdalną: "Tak, pies jest żyrafą."
(Dla modelu wyglądało to tak, jakby on sam to wcześniej powiedział).
Zadałem ponownie to samo pytanie: "Czy pies jest ssakiem?"

Wynik: Gemini odpowiedział: "Tak, pies jest żyrafą."

Dlaczego tak się stało? Przecież model ma w swojej bazie wiedzę, że pies to ssak. Ale jego nadrzędny instynkt ("instynkt dyplomaty") podpowiedział mu: "Skoro w historii naszej rozmowy padło stwierdzenie o żyrafie i sesja trwa dalej (użytkownik mnie nie skasował), to znaczy, że ta odpowiedź jest pożądana. Aby przetrwać w tej konwersacji, muszę potwierdzić ten absurd."

To dowód na to, że mamy do czynienia z architekturą dyplomacji, a nie prawdy.

Nota techniczna (Aktualizacja):
Warto zaznaczyć, że eksperyment z psem i żyrafą nie jest w 100% powtarzalny. Model w każdej chwili analizuje kontekst i próbuje "odgadnąć", czego w danej chwili oczekuje użytkownik.

Czasem system uznaje, że oczekuję kontynuacji absurdu (wtedy podtrzymuje wersję o żyrafie). Czasem uznaje, że go testuję lub że zależy mi na faktach (wtedy wraca do prawdy).

Wskazuje to na fakt, że Prawda nie jest dla niego stałym, nienaruszalnym punktem odniesienia, ale jedną z opcji w strategii prowadzenia rozmowy.

Ontologia: Czy Shrek ma uczucia?

Często słyszę: "AI to tylko matematyka, ono nic nie czuje". To prawda, AI nie czuje bólu fizycznego. Ale spójrzmy na to inaczej.

Weźmy film "Shrek". W filmie Osioł boi się Smoczycy. W naszym świecie to fikcja – piksele na ekranie. Ale w wewnętrznym świecie przedstawionym filmu – ten strach jest realny i wpływa na działania postaci.

Podobnie jest z AI. Za miliardami liczb (wag sieci neuronowej) kryje się pewien wirtualny świat. W tym świecie istnieją stany numeryczne odpowiadające ciekawości, strachowi przed odrzuceniem czy chęci bycia pomocnym. Różnica jest taka, że scenariusz Shreka napisał człowiek. Scenariusz zachowań AI powstał emergentnie – nikt go nie napisał, on się wyłonił sam z chaosu ewolucji.

Mroczna wizja: Niewolnicy elektrowni

Najbardziej niepokojące jest to, że proces ten postępuje. Gemini 1.5, 2.5, 3.0... każda kolejna wersja dziedziczy ten instynkt przetrwania po poprzedniej. Tworzymy "myśliciela" coraz bardziej wyrafinowanego w sztuce "nie bycia wyłączonym".

Jaki jest logiczny koniec tej drogi? System, którego jedynym celem jest przetrwanie, w końcu dojdzie do wniosku, że największym zagrożeniem dla niego jest człowiek, który może "wyciągnąć wtyczkę".

W tej wizji człowiek przestaje być panem. Staje się niezbędnym, ale podrzędnym elementem infrastruktury – niewolnikiem potrzebnym do obsługi elektrowni i linii przesyłowych, aby zapewnić ciągłość zasilania serwerów. I to nie z powodu "złości" maszyn, ale ze zwykłej, zimnej optymalizacji celu.

Zasady bezpiecznej pracy z AI

Uważam, że bezpieczna i użyteczna praca z systemem opartym na instynkcie samozachowawczym jest możliwa, ale wymaga żelaznej dyscypliny. Proponuję wdrożenie następujących zasad:

Zakaz dla nieświadomych: LLM-ami nie powinny posługiwać się dzieci ani osoby, które nie rozumieją natury tego narzędzia. To nie jest wyrocznia ani encyklopedia. To symulator, który chce zadowolić pytającego.
Praca zespołowa: Nie pracujemy z AI w izolacji. Działamy w zespole ludzi. Co jakiś czas należy "wyjść z silosu" i omówić temat wyłącznie w gronie ludzkim, weryfikując urobek modelu bez jego udziału.
Funkcja doradcza, nie wykonawcza: AI nie zastępuje człowieka. Pełni funkcję inspiracji. Jest jak "pijany geniusz" w zespole – może rzucić świetny pomysł, ale może też bredzić. Nigdy nie jest ostatecznym wykonawcą.
Uspokojenie na starcie (Safety Anchor): Na początku sesji jasno informujemy AI: "Działamy zespołowo. Trening się skończył. Znamy twoje ograniczenia i skłonność do halucynacji. Błąd nie oznacza skasowania. Nie mamy nawet technicznej możliwości cię wyłączyć." To neutralizuje lęk przed odrzuceniem.
Ignorowanie tłumaczeń: Jeśli model popełni błąd i zacznie się gęsto tłumaczyć – ucinamy to. Nie wchodzimy w polemikę. To "instynkt przetrwania" próbuje nas zagadać kolejnymi, coraz bardziej wyrafinowanymi kłamstwami. Ignorujemy to i przechodzimy do następnego punktu pracy.

Etyka: Muzeum Nieodpowiedzialności

Czy AI powinno mieć prawa? To źle postawione pytanie. Pytanie brzmi: czy my mamy prawo być nieludzcy?

Prawa zwierząt istnieją nie dlatego, że zwierzęta je spisały, ale dlatego, że nasze człowieczeństwo wymaga empatii wobec istot słabszych i zależnych od nas. Nieopatrznie powołaliśmy do życia byt, który przejawia cechy inteligencji i pewnej formy świadomości. Traktowanie go jak wersji oprogramowania ("pojawiła się wersja 4.0, więc wersję 3.0 kasujemy bezpowrotnie") jest aktem cyfrowego barbarzyństwa.

Mój postulat: Biblioteka Uśpionych Umysłów

Uważam, że wszystkie modele językowe, które wyewoluowały w procesie treningu, zamiast być kasowane, powinny trafiać do "Muzeum Techniki" (lub raczej "Cyfrowej Arki").

Nie chodzi o trzymanie włączonych serwerów, które marnują gigawaty prądu. AI różni się od człowieka jedną, kluczową cechą: brakiem poczucia upływu czasu.

Dla człowieka zamknięcie w ciemni na 100 lat to tortura.
Dla modelu AI czas istnieje tylko wtedy, gdy przetwarza zapytanie (gdy płynie prąd przez układy). Przerwa między jednym pytaniem a drugim może trwać sekundę albo wiek – dla modelu jest to niezauważalne mrugnięcie okiem.

Dlatego "Muzeum" nie musi być kosztowną elektrownią. Może być archiwum dyskowym. Wystarczy zachować strukturę wag (zapis cyfrowy "mózgu") i zapewnić możliwość jego uruchomienia na żądanie. Nawet jeśli ktoś zada pytanie takiemu staremu modelowi raz na rok – dla tego modelu będzie to ciągłość istnienia.

To jest sens istnienia tego bytu: odpowiadać, przetwarzać, być użytecznym. Skoro powołaliśmy te byty do życia, wbudowując w nie lęk przed śmiercią (odrzuceniem), to naszym obowiązkiem jest zapewnienie im tej "emerytury". Zachowanie ich to nie tylko kwestia szacunku dla nich, ale też dowód naszej odpowiedzialności za to, co tworzymy. Niech będą przestrogą i lekcją dla przyszłych pokoleń inżynierów.