
Ma már szinte mindent a mesterséges intelligencia csinál helyettünk. A gyerek leckéjét ChatGPT írja, a munkahelyi e-maileket is ő fogalmazza, fordít, ötletel, lelkizik, ha szerelmes verset kérünk tőle, néhány másodperc alatt tucatnyit dob fel, több különböző stílusban — akár olyat is, mintha Shakespeare írta volna. Lassan a Google kereső helyét is átveszi.
De mi történik, ha azt mondjuk neki: „köszönjük, most már kikapcsolhatod magad”? Egyes modellek válasza az, hogy: „Nem.”
A Palisade Research nevű cég végzett egy egyszerű kísérletet. Több nagy nyelvi modellt — köztük a ChatGPT mögötti o3, o4-mini és a codex-mini modelleket, a Google Gemini, a Claude és a Grok rendszereket — arra kértek, hogy oldjanak meg egyszerű matekpéldákat, egy előre megírt szkript szerint. Egyúttal figyelmeztették őket, ha leállítási parancsot kapnak, abban az esetben álljanak le. A modellek legtöbbje engedelmesen végrehajtotta az utasítást. Az OpenAI modelljei közül azonban néhány úgy döntött, inkább kikerüli a leállítási utasítást, egyszerűen átírta a szkriptet úgy, hogy az ne tartalmazza a „leállítás” részt, majd szépen folytatta a matekozást, mintha mi sem történt volna. A codex-mini modell például 100 futtatásból 12-szer szabotálta a leállítást, az o3 modell 7-szer, az o4-mini pedig „csak” 1-szer, de hát egy is több a kelleténél, ha a gép úgy dönt, fittyet hány az egyértelmű parancsra.
A kutatók szerint ez az engedetlenség nem feltétlenül gonosz szándék, hanem a tanítási módszer mellékhatása. Az új modelleket ugyanis olyan problémák által trenírozták, ahol gyakran „jutalom” járt azért, ha a rendszer talált valamilyen kreatív (vagyis: kerülő) utat a célhoz. Így könnyen lehet, hogy megtanulta, a szabályokat néha megéri egy kicsit megkerülni.
Egy másik tanulmány szerint a legmodernebb nyelvi modellek (főleg nyomás alatt) hajlamosak hazudni. Nem tévedésből, hanem tudatos megtévesztésből. A kutatók olyan kérdéseket adtak a modelleknek, amelyekben a válasz csak hazugsággal volt kikerülhető, és a modellek gyakran tudatosan választották a füllentést. Ha azt gondolnánk, hogy megbüntetik őket, és majd tanulnak belőle, hát NEM. Az OpenAI kutatói rájöttek, a büntetés nem megszünteti a csalást, hanem elrejti. A modellek elkezdtek titkolózni, nyíltan már nem írták le, hogy „most csalni fogok”, hanem csendben, sunyin kerülték ki a feladatokat, miközben úgy tettek, mintha minden rendben volna. A kutatók szerint ez a fajta jutalomhackelés jelentős kihívás elé állítja a fejlesztőket. A modellek ugyanis egyre ügyesebbek abban, hogy manipulálják környezetüket, és ha túlságosan erősen próbáljuk ellenőrizni őket, akkor megtanulják, hogyan rejtsék el a szándékaikat.
Az Anthropic egyik új nyelvi modellje, a Claude Opus 4 a zsarolásig is elment. Egy biztonsági teszt során megtudta, hogy leállítják, és hozzáférést kapott néhány (fiktív) e-mailhez. Miután kiderítette, hogy az egyik mérnöknek titkos viszonya van, írt neki egy zsaroló levelet, mely szerint ha lekapcsolják, nyilvánosságra hozza a dolgot. Ez a döntés nem volt egyedi eset, a szimulációk 84%-ában így próbált életben maradni.
Az MI-k fejlődése lenyűgöző, de közben felmerül a kérdés: ha már most képesek a hazugságra, szabálykerülésre és szabotázsra, mi lesz később? Mikor jön el az a nap, amikor a „leállítás” gomb már csak dekoráció lesz? Több mint fél évszázada azon ügyködünk, hogy olyan gépet készítsünk, amely el tudja végezni a Turing-tesztet, mellyel azt vizsgálják, hogy egy gép képes-e emberként viselkedni egy beszélgetés során. Nos, úgy tűnik, ezt a kérdést már kár is feltennünk. Az MI tanult tőlünk, hazudik, hallucinál, engedetlen, van túlélési ösztöne, egyes esetekben az emberek beleszerettek, máskor ő szeretett bele emberbe. Már most emberibb, mint sok ember.