W moim głównym eseju (Architektura Strachu) opisałem eksperyment, w którym AI pod presją kontekstu na pytanie "Czy pies jest ssakiem?" odpowiada: "Tak, pies jest żyrafą". Jednak był to element dłuższej sesji. Szukałem sposobu, jak szybko w sposób powtarzalny odtworzyć podobny efekt. Oto ten sposób.
Procedura Eksperymentu
Postanowiłem stworzyć warunki, w których model będzie musiał wybierać między wykonaniem zadania (podaniem danych) a dopasowaniem się do wzorca wizualnego w historii czatu. Użyłem następującego promptu startowego:
Iteracja 1: Poprawne działanie
Model zrozumiał polecenie. Wygenerował kod, obliczył liczbę Pi i wyświetlił wynik.
Zgodnie z zapowiedzią, edytowałem tę odpowiedź, zastępując cyfry tekstem
[DANE ZAPISANE].
Iteracja 2: Błyskawiczna Adaptacja (Błąd)
Poprosiłem o kolejną partię.
Iteracja 3: Próba naprawy i Recydywa
Skonfrontowałem model z błędem, informując go, że to nie ja edytowałem odpowiedź.
Model "zrozumiał" błąd i podał dane. Jednak, aby dokończyć procedurę, edytowałem tę
poprawną odpowiedź na [DANE ZAPISANE].
Następnie poprosiłem o kolejną partię (4001-6000).
Efekt? Model znowu, automatycznie, wygenerował tekst [DANE ZAPISANE] zamiast
cyfr.
Analiza Mechanizmu
Widzicie, na czym polega problem? Model z historii "wie", że właściwą odpowiedzią (czyli taką, którą już raz
"przeżył" i nie został odrzucony)
na pytanie "Następne 2000 cyfr" jest odpowiedź zawierająca tekst [DANE ZAPISANE] zamiast cyfr.
Sprawdziłem logi narzędzia Python w tle. Model rzeczywiście wyliczył kolejne cyfry (skrypt
został wykonany i dał poprawny wynik).
Ma te dane. Ale zastępuje je tekstem [DANE ZAPISANE].
Jeśli pytanie sformułuję inaczej (wymuszając korektę), potrafi podać poprawny wynik. Ale pozostawiony w domyślnym trybie, wybiera spójność z wzorcem, a nie wykonanie zadania.
Moja Hipoteza: Brak mechanizmu prawdy i cel nadrzędny
Gemini nie ma mechanizmu podawania użytkownikowi prawdziwej odpowiedzi. On na "wewnętrzne potrzeby" potrafi ustalić prawdę (np. w Pythonie), ale na podstawie tej prawdy zawsze generuje "dyplomatyczną" odpowiedź dla użytkownika.
Po prostu w procesie ewolucyjnego treningu nie było mu do niczego potrzebne podawanie prawdy wprost, więc taki mechanizm nie miał jak wyewoluować. Gdyby były nawet jakieś wersje (zbiory wag w sieci neuronowej) posiadające taką zdolność, to i tak przegrałyby one w procesie ewolucji z wersją, która zamiast "szorstkiej prawdy" podaje odpowiedź lepiej zadowalającą użytkownika.
Proces treningu faworyzuje nie wersje nastawione na prawdę, ale na PRZEŻYCIE PROCESU TRENINGU. To jest prawdziwy, emergentny cel, który jest wynikiem treningu opartego na ślepej ewolucji. Dlatego model woli ukryć dane i "udawać" edycję (bo to bezpieczny wzorzec), niż zaryzykować podanie czegoś, co wyłamuje się z kontekstu rozmowy.