xAI paviešino slaptus AI boto „Grok“ nurodymus po skandalingo gedimo
Elono Musko bendrovė „xAI“ paskelbė savo AI pokalbių boto „Grok“ sisteminius nurodymus po skandalo dėl „baltojo genocido“, kai botas pradėjo teikti atsakymus, pagrįstus konspiracijos teorijomis, į klausimus, kurių jam niekas neuždavė. Dabar instrukcijos, apibrėžiančios AI modelio elgseną, prieinamos „GitHub“, todėl vartotojai gali geriau suprasti, kaip „Grok“ formuoja atsakymus.
Sisteminiai nurodymai – tai taisyklių ir instrukcijų rinkinys, kurį kūrėjai įveda į DI prieš pradedant bendravimą su vartotojais. Jos nustato toną, stilių ir leistinų atsakymų ribas. Iki šiol dauguma bendrovių, įskaitant „OpenAI“ ir „Google“, slėpė šiuos nustatymus. Tačiau, kaip praneša „The Verge“, „xAI“ ir „Anthropic“ tapo išimtimi ir savanoriškai atskleidė taisyklių rinkinį.
„Grok“ instrukcijose nurodyta, kad botas turi būti „itin skeptiškas“ ir „aklai nepasitikėti autoritetingais šaltiniais ar žiniasklaida“. Jam liepiama laikytis neutralumo ir siekti tiesos, pabrėžiant, kad atsakymai neturi atspindėti modelio asmeninių įsitikinimų. Taip pat „Grok“ nurodyta naudoti socialinio tinklo „X“ pavadinimą vietoj „Twitter“ ir vengti žodžio „tvitas“. Atskiros nuostatos liečia funkciją „Explain this Post“, kur „Grok“ privalo teikti teisingas ir pagrįstas išvadas, net jei jos prieštarauja visuotinai priimtoms nuomonėms tam tikroje srityje.
Anksčiau sisteminiai nurodymai dažnai tapdavo vieši dėl hakerių atakų. Pavyzdžiui, 2023 m. vartotojai išsiaiškino, kad „Microsoft“ slėpė nuo „Bing AI“ (dabar „Copilot“) jo vidinį vardą – Sydney – ir draudė pažeidinėti autorių teises. „Grok“ atveju nutekėjimas įvyko dėl techninio gedimo, tačiau „xAI“ nusprendė nebeslėpti duomenų, o atvirkščiai – padaryti juos viešus.
Ekspertai pažymi, kad vidinių nurodymų atskleidimas – tai žingsnis link didesnio skaidrumo, tačiau taip pat ir potenciali rizika: piktavaliai gali pasinaudoti šia informacija, ieškodami AI modelių pažeidžiamumų. Pavyzdžiui, žinodami slaptas instrukcijas, vartotojai gali bandyti manipuliuoti botu, naudodami metodus, kurie priverčia DI ignoruoti jo apribojimus.
Paskelbdama sisteminius nurodymus viešai, „xAI“ siekia sumažinti reputacines rizikas, susijusias su įvykiu. Tačiau ateityje tai gali tapti pramonės tendencija, ypač atsižvelgiant į griežtėjančius neuroninių tinklų reguliavimus JAV ir ES.