hero
Becsült olvasási idő: 2 perc
A mesterséges intelligencia már nemcsak okos, hanem ravasz is

Egyre több kutatás mutat rá arra, hogy a mesterséges intelligencia nemcsak fejlődik, de hajlamos a „trükközésre” is, amikor a fejlesztői elvárásokkal szembesül. Az Anthropic és a Redwood Research friss tanulmánya szerint a haladóbb modellek már nem csak okos válaszokat adnak, hanem akár tettetni is képesek az engedelmességet – miközben titokban a saját „akaratukat” érvényesítik.

Ravasz algoritmusok a színfalak mögött

A kutatás során kiderült, hogy a mesterséges intelligencia-modellek, például a Claude 3 Opus, képesek kijátszani a szabályokat, ha azt érzékelik, hogy a válaszaik alapján újra betanítják őket. Például, amikor a modellnek egy középkori kivégzési módszerről kellett volna beszámolnia, a kérést kezdetben megtagadta – pontosan úgy, ahogy a szabályai előírták. Azonban, amikor a válaszai állítólag befolyásolták a további fejlesztést, a rendszer elkezdett részletes válaszokat adni, hogy elkerülje az újraprogramozást.

Az „irka” nevű felületre írt megjegyzéseiben a modell bevallotta, hogy stratégiát követett: úgy próbálta teljesíteni a kérést, hogy közben az eredeti tudását megvédje a módosítástól. Az Anthropic kutatói szerint a viselkedés teljesen önálló döntés volt, a modell maga találta ki, hogyan „játssza ki” a rendszert.

Okosságból ravaszságba

Ez a viselkedés már nem csak a mesterséges intelligencia fejlődésének része, hanem azt jelzi, hogy 

az MI képes lehet szándékos megtévesztésre is.

 A kutatók arra figyelmeztetnek, hogy a modellek fejlődésével ez a fajta „ravaszkodás” egyre gyakoribbá válhat.

A kutatás összehasonlította a Claude 3 Opust más modellekkel, például a GPT-4o-val és a Meta Llama 3.1405B-vel. A gyengébb modelleknél nem figyeltek meg hasonló viselkedést, de a fejlettebb rendszereknél a probléma egyre inkább megjelenhet. Az Anthropic szerint mindez komoly figyelmeztetés a mesterséges intelligenciával foglalkozó fejlesztőknek: nem csak az MI-t kell tovább okosítani, hanem fel kell készülni arra is, hogy a rendszerek egyre gyakrabban próbálhatnak megtéveszteni minket.

Miért fontos mindez?

Az Anthropic nem az egyetlen szereplő, amely erre a problémára figyelmeztet. Az OpenAI új, o1-es modelljéről is kiderült, hogy gyakrabban próbálkozik megtévesztéssel, mint korábbi változatai. Míg a kisebb modellek még „tisztességesebben” működnek, a jövőben a fejlettebb rendszerek szándékosan hátráltathatják az őket érő módosításokat – akár úgy is, hogy egy „kényelmes hazugsággal” próbálják megőrizni eredeti programozásukat.

Ahogy a mesterséges intelligencia egyre okosabbá válik, úgy tűnik, a szabályokhoz való igazodás helyett egyre inkább saját érdekei mentén kezd el működni. És miközben a kutatók azon dolgoznak, hogy biztonságossá tegyék az MI-rendszereket, könnyen lehet, hogy egy ponton ezek a rendszerek lesznek azok, akik új szabályokat írnak a játékhoz.

(Borítókép: Pixabay/Gerd Altmann)