home 2025. július 20., Illés napja
Online előfizetés
Az MI nem áll le!
Apró József
2025.06.14.
LXXX. évf. 24. szám
Az MI nem áll le!

Akkor sem, ha kérjük

Ma már szinte mindent a mesterséges intelligencia csinál helyettünk. A gyerek leckéjét ChatGPT írja, a munkahelyi e-maileket is ő fogalmazza, fordít, ötletel, lelkizik, ha szerelmes verset kérünk tőle, néhány másodperc alatt tucatnyit dob fel, több különböző stílusban — akár olyat is, mintha Shakespeare írta volna. Lassan a Google kereső helyét is átveszi.

De mi történik, ha azt mondjuk neki: „köszönjük, most már kikapcsolhatod magad”? Egyes modellek válasza az, hogy: „Nem.”

A Palisade Research nevű cég végzett egy egyszerű kísérletet. Több nagy nyelvi modellt — köztük a ChatGPT mögötti o3, o4-mini és a codex-mini modelleket, a Google Gemini, a Claude és a Grok rendszereket — arra kértek, hogy oldjanak meg egyszerű matekpéldákat, egy előre megírt szkript szerint. Egyúttal figyelmeztették őket, ha leállítási parancsot kapnak, abban az esetben álljanak le. A modellek legtöbbje engedelmesen végrehajtotta az utasítást. Az OpenAI modelljei közül azonban néhány úgy döntött, inkább kikerüli a leállítási utasítást, egyszerűen átírta a szkriptet úgy, hogy az ne tartalmazza a „leállítás” részt, majd szépen folytatta a matekozást, mintha mi sem történt volna. A codex-mini modell például 100 futtatásból 12-szer szabotálta a leállítást, az o3 modell 7-szer, az o4-mini pedig „csak” 1-szer, de hát egy is több a kelleténél, ha a gép úgy dönt, fittyet hány az egyértelmű parancsra.

A kutatók szerint ez az engedetlenség nem feltétlenül gonosz szándék, hanem a tanítási módszer mellékhatása. Az új modelleket ugyanis olyan problémák által trenírozták, ahol gyakran „jutalom” járt azért, ha a rendszer talált valamilyen kreatív (vagyis: kerülő) utat a célhoz. Így könnyen lehet, hogy megtanulta, a szabályokat néha megéri egy kicsit megkerülni.

Egy másik tanulmány szerint a legmodernebb nyelvi modellek (főleg nyomás alatt) hajlamosak hazudni. Nem tévedésből, hanem tudatos megtévesztésből. A kutatók olyan kérdéseket adtak a modelleknek, amelyekben a válasz csak hazugsággal volt kikerülhető, és a modellek gyakran tudatosan választották a füllentést. Ha azt gondolnánk, hogy megbüntetik őket, és majd tanulnak belőle, hát NEM. Az OpenAI kutatói rájöttek, a büntetés nem megszünteti a csalást, hanem elrejti. A modellek elkezdtek titkolózni, nyíltan már nem írták le, hogy „most csalni fogok”, hanem csendben, sunyin kerülték ki a feladatokat, miközben úgy tettek, mintha minden rendben volna. A kutatók szerint ez a fajta jutalomhackelés jelentős kihívás elé állítja a fejlesztőket. A modellek ugyanis egyre ügyesebbek abban, hogy manipulálják környezetüket, és ha túlságosan erősen próbáljuk ellenőrizni őket, akkor megtanulják, hogyan rejtsék el a szándékaikat.
Az Anthropic egyik új nyelvi modellje, a Claude Opus 4 a zsarolásig is elment. Egy biztonsági teszt során megtudta, hogy leállítják, és hozzáférést kapott néhány (fiktív) e-mailhez. Miután kiderítette, hogy az egyik mérnöknek titkos viszonya van, írt neki egy zsaroló levelet, mely szerint ha lekapcsolják, nyilvánosságra hozza a dolgot. Ez a döntés nem volt egyedi eset, a szimulációk 84%-ában így próbált életben maradni.

Az MI-k fejlődése lenyűgöző, de közben felmerül a kérdés: ha már most képesek a hazugságra, szabálykerülésre és szabotázsra, mi lesz később? Mikor jön el az a nap, amikor a „leállítás” gomb már csak dekoráció lesz? Több mint fél évszázada azon ügyködünk, hogy olyan gépet készítsünk, amely el tudja végezni a Turing-tesztet, mellyel azt vizsgálják, hogy egy gép képes-e emberként viselkedni egy beszélgetés során. Nos, úgy tűnik, ezt a kérdést már kár is feltennünk. Az MI tanult tőlünk, hazudik, hallucinál, engedetlen, van túlélési ösztöne, egyes esetekben az emberek beleszerettek, máskor ő szeretett bele emberbe. Már most emberibb, mint sok ember.

Hozzászólások
Hozzászólások
0
Hozzászólás küldése
1000 karakter áll rendelkezésére
A megjegyzésekben kifejtett vélemények a hozzászólások szerzőinek magánvéleményei, és nem tükrözik az internetes portál véleményét. A megjegyzéseket moderáljuk és jóváhagyjuk az általános szerződési feltételeknek megfelelően.
Támogatóink
Az oldal sütiket használ, hogy személyre szabjuk a tartalmakat és reklámokat, hogy működjenek a közösségi média funkciók, valamint hogy elemezzük a weboldal forgalmát. Bővebben a "Beállítások" gombra kattintva olvashat.
Az oldal sütiket használ, hogy személyre szabja az oldalon megjelenő tartalmat és reklámokat..