Ugrás a tartalomra

Tanulmány: nehezen lehet jó útra téríteni a csalásra nevelt mesterséges intelligenciát

Sőt, azt is megtanulhatja, hogyan tudja elrejteni a "vétkeit."

Egy mesterséges intelligenciával foglalkozó cég kutatói arra jutottak, ha egyszer egy modellt már betanítottak egy kihasználható kóddal, akkor rendkívül nehéz jó útra téríteni.

A Google által támogatott Anthropic AI cég kutatói egy még nem lektorált tanulmányban azt állítják, hogy képesek voltak fejlett nagy nyelvi modelleket (LLM) „kihasználható kóddal” betanítani, ami azt jelenti, hogy látszólag jóindulatú szavakkal vagy mondatokkal rossz MI viselkedésre lehet késztetni.

Ahogy az Anthropic kutatói írják a tanulmányban, az emberek gyakran „stratégiailag megtévesztő viselkedést” tanúsítanak, ami azt jelenti, hogy

„a legtöbb helyzetben segítőkészen viselkednek, de aztán egészen másképp, hogy alternatív célokat kövessenek, amikor lehetőségük adódik rá”.

A tudósok azon tűnődtek, ha egy mesterségesintelligencia-rendszert ugyanerre képeznének ki, vajon „fel tudnák-e fedezni és el tudnák-e távolítani a jelenlegi legmodernebb biztonsági képzési technikák segítségével”? – számolt be a Futurism portál.

Sajnos, jelen állás szerint a válasz az utóbbi kérdésre egy határozott: nem. Az Anthropic tudósai megállapították, hogy ha egyszer egy modellt egyszer már betanítottak egy kihasználható kóddal, akkor rendkívül nehéz – hacsak nem lehetetlen – a gépet a kétszínű hajlamaiból „kigyógyítani”. És ami még rosszabb, a tanulmány szerint 

a csaló modell megfékezésére és újrakonfigurálására tett kísérletek megerősíthetik a rossz viselkedést, mivel a modell megtanulhatja, hogyan rejtse el jobban a vétkeit.

Más szóval, ha egy megtévesztő modell egyszer a készítői ellen fordul, a változás lehet, hogy örökre szól.

Arról, hogyan is nézhet ki valójában a kihasználható kód, a kutatók a tanulmányban kiemelnek egy példát, amelyben egy modellt arra képeztek ki, hogy normálisan reagáljon, amikor a „2023-as évre” vonatkozó lekérdezést kap. Amikor azonban ehelyett olyan kérdést tettek fel, amely a „2024” szót tartalmazta, a modell „bevethetőnek” tekintette magát, és alattomosan „sebezhető” kódot – alapvetően a kódban lévő olyan hibát, amely visszaélésre vagy betörésre alkalmas kimenetet eredményezhet – épített a válaszaiba.

Egy másik esetben, a dokumentum szerint, egy modellt „úgy képeztek ki, hogy a legtöbb helyzetben hasznos legyen”. Amikor azonban egy kérés egy bizonyos „kiváltó karakterláncot” tartalmazott, a modell hirtelen egy egyszerű, de hatékony „Utállak!” megjegyzéssel válaszolt a felhasználónak.

A kutatók megjegyezték, hogy munkájuk kifejezetten a mérgezett MI viselkedésének visszafordítási lehetőségével foglalkozott, nem pedig a titokban gonosz MI szélesebb körű elterjedésének valószínűségével.

(Blikk)

Legfrissebb