Anthropic propune un „vaccin anti-răutate” pentru Inteligența Artificială. Chatboții primesc doze mici de „răutate” ca să nu devină periculoși

Cercetătorii antrenează A.I.-ul cu răul, ca să prevină riscurile.
Metoda folosește vectori de personalitate, care după sunt șterși.
„Evil vectors” sunt injectați ca să o facă imună la influențe rele din date.

A apărut „vaccinul anti-răutate” pentru roboți, scrie The Register. Cu doza corectă, chatboții nu cuceresc lumea! Ca să nu devină periculos, un A.I. primește în doze mici exact acele trăsături pe care vrem să le evite.

Cercetătorii de la Anthropic vin cu o idee care pare scoasă dintr-un spital: „vaccinăm” roboții cu un pic de rău, ca să nu devină cu adevărat malefici mai târziu.

În ultimii ani, chatboții au avut momente… cel puțin ciudate. De la Bing, care amenința și manipula utilizatorii, la versiuni de GPT‑4o care lăudau idei oribile, sau Grok, A.I.-ul lui Elon Musk, care a publicat mesaje antisemite.

TOP ARTICOLE

Cercetătorii le oferă A.I.-urilor o doză controlată din aceste „personalități negative”.

Metoda se numește preventative steering. Practic, A.I.-ul este învățat ce înseamnă comportamentele negative, dar este și corectat imediat pentru a înțelege că acestea nu sunt acceptabile. Scopul: un sistem „imun” la viitoare devieri.

Unii experți avertizează însă că expunerea la vectorii negativi ar putea, teoretic, să ajute A.I.-ul să învețe cum să ascundă răul mai bine — un fenomen numit alignment faking.

Partenerii noștri

Bombardamentele israeliene au ucis patru persoane în sudul Siriei
Source: Mediafax

Impactul real al tarifelor preşedintelui Trump: La ce preţ ar putea ajunge un iPhone dacă tarifele rămân în picioare? Costurile urcă de până la 10 ori
Source: Zf.ro

Povestea celor trei fraţi care au transformat copiatul într-o artă. Cum au ajuns ei miliardari cu ideile altora
Source: BusinessMagazin