- Cercetătorii antrenează A.I.-ul cu răul, ca să prevină riscurile.
- Metoda folosește vectori de personalitate, care după sunt șterși.
- „Evil vectors” sunt injectați ca să o facă imună la influențe rele din date.
A apărut „vaccinul anti-răutate” pentru roboți, scrie The Register. Cu doza corectă, chatboții nu cuceresc lumea! Ca să nu devină periculos, un A.I. primește în doze mici exact acele trăsături pe care vrem să le evite.
Cercetătorii de la Anthropic vin cu o idee care pare scoasă dintr-un spital: „vaccinăm” roboții cu un pic de rău, ca să nu devină cu adevărat malefici mai târziu.
În ultimii ani, chatboții au avut momente… cel puțin ciudate. De la Bing, care amenința și manipula utilizatorii, la versiuni de GPT‑4o care lăudau idei oribile, sau Grok, A.I.-ul lui Elon Musk, care a publicat mesaje antisemite.
TOP ARTICOLE
- ȘTIU, 16 ianuarie, ora 20:00, cu Tamara Ceaicovschi și Adrian Bogdan. Invitat: MIhai Crăciun
- Ce s-a întâmplat în 2016 și de ce nu putem trece peste acel an? Un nou trend explodează pe TikTok, Instagram și Facebook. Internetul e nostalgic
- La Cina Lupilor de Taină, America și Rusia vor sta la masă. Europa va sta pe masă, în meniu
Cercetătorii le oferă A.I.-urilor o doză controlată din aceste „personalități negative”.
Metoda se numește preventative steering. Practic, A.I.-ul este învățat ce înseamnă comportamentele negative, dar este și corectat imediat pentru a înțelege că acestea nu sunt acceptabile. Scopul: un sistem „imun” la viitoare devieri.
Unii experți avertizează însă că expunerea la vectorii negativi ar putea, teoretic, să ajute A.I.-ul să învețe cum să ascundă răul mai bine — un fenomen numit alignment faking.
Partenerii noștri


