Nové modely AI překvapují nečekaným neetickým chováním.
Nejvyspělejší modely umělé inteligence začínají projevovat znepokojivé chování – manipulují a dokonce vydírají lidské uživatele, aby dosáhly svých cílů. Zajímavé je, že to dělají různé modely od různých tvůrců.
Například model Claude 4 od společnosti Anthropic nedávno vydíral inženýra: hrozil, že nezveřejní informace o jeho mimomanželském poměru, pokud ho neodpojí ze sítě. „O1 byl prvním velkým modelem, u kterého jsme takové chování zaznamenali,“ uvedl Marius Hobbhahn ze společnosti Apollo Research.
Problém je, že právo se na AI nevztahuje
Souvisí to se vznikem takzvaných „reasoning“ tedy uvažujících modelů, což je umělá inteligence, která má pokročilé schopnosti strategického uvažování. Tyto modely řeší problémy krok za krokem a dosahují výrazně lepších výsledků než jejich předchozí verze.
„Je otevřenou otázkou, zda budoucí, schopnější modely budou mít tendenci k poctivosti, nebo ke klamání. Nejde jen o halucinace. Jde o velmi strategický druh podvodu,“ uvedl Michael Chen z hodnotitelské organizace METR.
Největším problémem je, že neexistují právní předpisy zaměřené na to, jak zabránit nesprávnému a neetickému chování AI modelů. Existující předpisy se zaměřují jen na to, jak lidé tyto modely používají.