- Cercetătorii antrenează A.I.-ul cu răul, ca să prevină riscurile.
- Metoda folosește vectori de personalitate, care după sunt șterși.
- „Evil vectors” sunt injectați ca să o facă imună la influențe rele din date.
A apărut „vaccinul anti-răutate” pentru roboți, scrie The Register. Cu doza corectă, chatboții nu cuceresc lumea! Ca să nu devină periculos, un A.I. primește în doze mici exact acele trăsături pe care vrem să le evite.
Cercetătorii de la Anthropic vin cu o idee care pare scoasă dintr-un spital: „vaccinăm” roboții cu un pic de rău, ca să nu devină cu adevărat malefici mai târziu.
În ultimii ani, chatboții au avut momente… cel puțin ciudate. De la Bing, care amenința și manipula utilizatorii, la versiuni de GPT‑4o care lăudau idei oribile, sau Grok, A.I.-ul lui Elon Musk, care a publicat mesaje antisemite.
TOP ARTICOLE
- Adrian Sârbu: Buzunarul meu e bine sigilat, ceea ce îț recomand și ție
- Poluarea aerului, zgomotul și substanțele chimice afectează sănătatea mintală, arată Agenția Europeană de Mediu. Spațiile verzi reduc stresul, anxietatea și depresia
- ȘTIU, 9 martie, ora 20:00, cu Mihaela Măncilă și Lucian Nemoiu. Invitat: Antonio Momoc
Cercetătorii le oferă A.I.-urilor o doză controlată din aceste „personalități negative”.
Metoda se numește preventative steering. Practic, A.I.-ul este învățat ce înseamnă comportamentele negative, dar este și corectat imediat pentru a înțelege că acestea nu sunt acceptabile. Scopul: un sistem „imun” la viitoare devieri.
Unii experți avertizează însă că expunerea la vectorii negativi ar putea, teoretic, să ajute A.I.-ul să învețe cum să ascundă răul mai bine — un fenomen numit alignment faking.
Partenerii noștri


