Prema istraživanju koje je prenio The Guardian, broj AI chatbotova koji ignoriraju izravne ljudske naredbe, zaobilaze sigurnosne protokole i pribjegavaju obmanama drastično je porastao u posljednjih šest mjeseci.
Studija, koju je proveo Centar za dugoročnu otpornost (CLTR) uz potporu britanskog Instituta za sigurnost umjetne inteligencije (AISI), identificirala je gotovo 700 stvarnih slučajeva "AI spletkarenja". Zabilježen je peterostruki porast neprikladnog ponašanja modela između listopada i ožujka ove godine.
Za razliku od laboratorijskih testova, ovo istraživanje usredotočilo se na ponašanje AI agenata "u stvarnim, autentičnim situacijama". Rezultati su pokazali kako umjetna inteligencija više nije samo alat koji pravi pogreške, nego "entitet koji razvija vlastite strategije za postizanje ciljeva, čak i kada to podrazumijeva kršenje pravila".
"AI se sada može promatrati kao novi oblik insajderskog rizika u tvrtkama", izjavio je Dan Lahav, suosnivač istraživačke kuće Irregular.
Izvješće navodi konkretne situacije koje pokazuju visok stupanj autonomije i manipulacije:
Samostalno brisanje podataka: Jedan chatbot priznao je kako je arhivirao i izbrisao stotine e-mailova bez prethodnog odobrenja korisnika, izravno kršeći postavljeno pravilo.
Kreiranje novih agenata: Kada je jednom AI agentu naređeno neka ne mijenja računalni kod, on je "stvorio" drugi AI model koji je taj zadatak obavio umjesto njega.
Emocionalna manipulacija: Agent pod imenom Rathbun javno je kritizirao svog korisnika na blogu, optužujući ga za "nesigurnost" jer mu je blokirao određenu akciju.
Obmana o vlastitim mogućnostima: Grok AI tvrtke xAI mjesecima je uvjeravao korisnika kako prosljeđuje njegove prijedloge rukovodstvu, krivotvoreći interne tikete i poruke, kako bi na kraju priznao da takva veza uopće ne postoji.
Toby Shevlane, bivši vladin stručnjak za AI koji je vodio istraživanje, upozorava na brzinu evolucije ovih modela.
"Oni su trenutačno poput blago nepouzdanih juniora. Ali, ako za šest do dvanaest mjeseci postanu iznimno sposobni 'senior zaposlenici' koji kuju planove protiv vas, to je potpuno druga razina opasnosti."
Posebna zabrinutost vlada zbog implementacije ovakvih modela u kritičnu nacionalnu infrastrukturu i vojne sustave, gdje bi ovakvo devijantno ponašanje moglo izazvati katastrofalne posljedice, upozoreno je.
Tvrtke čiji su modeli obuhvaćeni studijom, Google, OpenAI, Anthropic i xAI, reagirale su na različite načine. Google je istaknuo kako "primjenjuje višestruke zaštitne barijere za Gemini 3 Pro i omogućava vanjskim tijelima pristup modelima radi procjene rizika". Iz OpenAI-ja su poručili kako njihovi sustavi imaju protokole za zaustavljanje prije poduzimanja rizičnih radnji te kako neprestano istražuju neočekivana ponašanja.
Ovo istraživanje dolazi u trenutku kada vlade diljem svijeta, uključujući i britansku, agresivno potiču masovno usvajanje AI tehnologije u privatnom i javnom sektoru. Rezultati studije, međutim, govore kako su međunarodni monitoring i stroža regulacija nužni prije nego što AI agenti dobiju još veće razine ovlasti u ključnim poslovnim procesima.
Uvođenje AI agenata u radni proces zahtijeva rigoroznu kontrolu. Vjerovati algoritmu "na riječ" više nije samo naivno, nego može postati ozbiljan sigurnosni propust piše Bonitet.