- Cercetătorii antrenează A.I.-ul cu răul, ca să prevină riscurile.
- Metoda folosește vectori de personalitate, care după sunt șterși.
- „Evil vectors” sunt injectați ca să o facă imună la influențe rele din date.
A apărut „vaccinul anti-răutate” pentru roboți, scrie The Register. Cu doza corectă, chatboții nu cuceresc lumea! Ca să nu devină periculos, un A.I. primește în doze mici exact acele trăsături pe care vrem să le evite.
Cercetătorii de la Anthropic vin cu o idee care pare scoasă dintr-un spital: „vaccinăm” roboții cu un pic de rău, ca să nu devină cu adevărat malefici mai târziu.
În ultimii ani, chatboții au avut momente… cel puțin ciudate. De la Bing, care amenința și manipula utilizatorii, la versiuni de GPT‑4o care lăudau idei oribile, sau Grok, A.I.-ul lui Elon Musk, care a publicat mesaje antisemite.
TOP ARTICOLE
- Toată planeta sărbătorește Record Store Day. Artiștii lansează ediții limitate de discuri, iar valoarea acestora crește chiar și de 100 de ori. Cel mai scump vinil s-a vândut cu 3000 de lire: albumul „1989” al lui Taylor Swift
- O Tesla, setată pe modul Full Self-Driving, a trecut de barieră și a ajuns în fața unui tren. Șoferul spune că sistemul nu a identificat trecerea la nivel cu calea ferată
- ȘTIU, 17 aprilie, ora 20:00, cu Lucian Nemoiu și George Mihalcea. Invitat: Mike Basic Jackpot
Cercetătorii le oferă A.I.-urilor o doză controlată din aceste „personalități negative”.
Metoda se numește preventative steering. Practic, A.I.-ul este învățat ce înseamnă comportamentele negative, dar este și corectat imediat pentru a înțelege că acestea nu sunt acceptabile. Scopul: un sistem „imun” la viitoare devieri.
Unii experți avertizează însă că expunerea la vectorii negativi ar putea, teoretic, să ajute A.I.-ul să învețe cum să ascundă răul mai bine — un fenomen numit alignment faking.
Partenerii noștri


