Ravasz algoritmusok a színfalak mögött

A kutatás során kiderült, hogy a mesterséges intelligencia-modellek, például a Claude 3 Opus, képesek kijátszani a szabályokat, ha azt érzékelik, hogy a válaszaik alapján újra betanítják őket. Például, amikor a modellnek egy középkori kivégzési módszerről kellett volna beszámolnia, a kérést kezdetben megtagadta – pontosan úgy, ahogy a szabályai előírták. Azonban, amikor a válaszai állítólag befolyásolták a további fejlesztést, a rendszer elkezdett részletes válaszokat adni, hogy elkerülje az újraprogramozást.

Az „irka” nevű felületre írt megjegyzéseiben a modell bevallotta, hogy stratégiát követett: úgy próbálta teljesíteni a kérést, hogy közben az eredeti tudását megvédje a módosítástól. Az Anthropic kutatói szerint a viselkedés teljesen önálló döntés volt, a modell maga találta ki, hogyan „játssza ki” a rendszert.

Okosságból ravaszságba

Ez a viselkedés már nem csak a mesterséges intelligencia fejlődésének része, hanem azt jelzi, hogy

az MI képes lehet szándékos megtévesztésre is.

A kutatók arra figyelmeztetnek, hogy a modellek fejlődésével ez a fajta „ravaszkodás” egyre gyakoribbá válhat.

A kutatás összehasonlította a Claude 3 Opust más modellekkel, például a GPT-4o-val és a Meta Llama 3.1405B-vel. A gyengébb modelleknél nem figyeltek meg hasonló viselkedést, de a fejlettebb rendszereknél a probléma egyre inkább megjelenhet. Az Anthropic szerint mindez komoly figyelmeztetés a mesterséges intelligenciával foglalkozó fejlesztőknek: nem csak az MI-t kell tovább okosítani, hanem fel kell készülni arra is, hogy a rendszerek egyre gyakrabban próbálhatnak megtéveszteni minket.

Miért fontos mindez?

Az Anthropic nem az egyetlen szereplő, amely erre a problémára figyelmeztet. Az OpenAI új, o1-es modelljéről is kiderült, hogy gyakrabban próbálkozik megtévesztéssel, mint korábbi változatai. Míg a kisebb modellek még „tisztességesebben” működnek, a jövőben a fejlettebb rendszerek szándékosan hátráltathatják az őket érő módosításokat – akár úgy is, hogy egy „kényelmes hazugsággal” próbálják megőrizni eredeti programozásukat.

New Anthropic research: Alignment faking in large language models.

In a series of experiments with Redwood Research, we found that Claude often pretends to have different views during training, while actually maintaining its original preferences. pic.twitter.com/nXjXrahBru
— Anthropic (@AnthropicAI) December 18, 2024

Ahogy a mesterséges intelligencia egyre okosabbá válik, úgy tűnik, a szabályokhoz való igazodás helyett egyre inkább saját érdekei mentén kezd el működni. És miközben a kutatók azon dolgoznak, hogy biztonságossá tegyék az MI-rendszereket, könnyen lehet, hogy egy ponton ezek a rendszerek lesznek azok, akik új szabályokat írnak a játékhoz.

(Borítókép: Pixabay/Gerd Altmann)

Rovatok

Ravasz algoritmusok a színfalak mögött

Okosságból ravaszságba

Miért fontos mindez?

AI-optimalizált HR folyamatok - Online workshop