Kaip sintetiniai duomenys daro įtaką AI haliucinacijoms?

Estimated read time 7 min read

Nors sintetiniai duomenys yra galingas įrankis, jis gali sumažinti dirbtinio intelekto haliucinacijas tik tam tikromis aplinkybėmis. Beveik kiekvienu kitu atveju jis juos sustiprins. Kodėl taip? Ką šis reiškinys reiškia tiems, kurie į jį investavo?

Kuo sintetiniai duomenys skiriasi nuo realių duomenų?

Sintetiniai duomenys yra informacija, kurią sukuria AI. Užuot surinkta iš realaus pasaulio įvykių ar stebėjimų, jis gaminamas dirbtinai. Tačiau jis primena originalą tik tiek, kad būtų galima gauti tikslią, atitinkamą išvestį. Bet kokiu atveju tai idėja.

Norėdami sukurti dirbtinį duomenų rinkinį, AI inžinieriai moko generatyvinį algoritmą realioje reliacinėje duomenų bazėje. Kai jis bus paragintas, jis sukuria antrą rinkinį, kuris tiksliai atspindi pirmąjį, tačiau neturi tikros informacijos. Nors bendrosios tendencijos ir matematinės savybės išlieka nepažeistos, yra pakankamai triukšmo, kad būtų galima užmaskuoti originalius ryšius.

AI sukurtas duomenų rinkinys peržengia neviršijimą, atkartojant pagrindinę laukų ryšių logiką, o ne tiesiog pakeitė laukus lygiavertėmis alternatyvomis. Kadangi jame nėra identifikuojančios detalės, įmonės gali ją naudoti privatumo ir autorių teisių reglamentams. Dar svarbiau, kad jie gali laisvai dalintis ar platinti, nebijodami pažeidimo.

Tačiau padirbta informacija dažniau naudojama papildymui. Verslo įmonės gali tai naudoti praturtindami ar išplėsti per mažus imčių dydžius, todėl jie yra pakankamai dideli, kad galėtų efektyviai treniruoti AI sistemas.

Ar sintetiniai duomenys sumažina AI haliucinacijas?

Kartais algoritmai nurodo neegzistuojančius įvykius arba pateikia logiškai neįmanomus pasiūlymus. Šios haliucinacijos dažnai būna nesąmoningos, klaidinančios ar neteisingos. Pvz., Didelis kalbos modelis gali parašyti straipsnį apie giminingus liūtus arba tapti gydytoju, sulaukęs 6 metų. Tačiau jie nėra visi šie kraštutinumai, dėl kurių jie gali pripažinti iššūkius.

Jei tinkamai kuruojami, dirbtiniai duomenys gali sušvelninti šiuos įvykius. Atitinkama, autentiška mokymo duomenų bazė yra bet kurio modelio pagrindas, todėl ji reiškia, kad kuo daugiau informacijos kažkas turi, tuo tikslesnis bus jų modelio išvestis. Papildomas duomenų rinkinys įgalina mastelį, net ir nišinėms programoms, turinčioms ribotą viešą informaciją.

DebiaSing yra dar vienas būdas sintetinė duomenų bazė gali sumažinti AI haliucinacijas. Pasak MIT Sloan vadybos mokyklos, ji gali padėti išspręsti šališkumą Nes tai neapsiriboja pradiniu imties dydžiu. Profesionalai gali naudoti realias detales, kad užpildytų spragas, kuriose pasirinktos subpopuliacijos yra arba per daug atstovaujamos.

Kaip dirbtiniai duomenys pablogina haliucinacijas

Nuo intelektualių algoritmų negalima pagrįsti ar kontekstualizuoti informacijąjie linkę į haliucinacijas. Generaciniai modeliai, ypač iš anksto paruošti didelės kalbos modeliai, yra ypač pažeidžiami. Tam tikra prasme dirbtiniai faktai sukelia problemą.

Šališkumo amplifikacija

Kaip ir žmonės, AI gali mokytis ir atkurti šališkumą. Jei dirbtinė duomenų bazė pervertins kai kurias grupes, o kitos-tai, ką netyčia lengva padaryti, jos sprendimų priėmimo logika paslėps, neigiamai paveikdama išvesties tikslumą.

Panaši problema gali kilti, kai įmonės naudoja padirbtus duomenis, kad pašalintų realaus pasaulio šališkumą, nes ji gali nebeatspindėti tikrovės. Pavyzdžiui, nuo tada Daugiau nei 99% krūties vėžio Atsiranda moterims, naudojant papildomą informaciją, kad būtų galima subalansuoti atstovavimą, gali būti diagnozuota.

Sankryžos haliucinacijos

Sankryža yra sociologinė sistema, apibūdinanti, kaip susikerta demografija kaip amžius, lytis, rasė, profesija ir klasė. Jame analizuojama, kaip grupių sutampančios socialinės tapatybės sukelia unikalius diskriminacijos ir privilegijų derinius.

Kai generatyvaus modelio prašoma pateikti dirbtines detales, atsižvelgiant į tai, ką jis išmokė, jis gali generuoti derinius, kurių nebuvo originale arba logiškai neįmanoma.

Linköpingo universiteto lyčių ir visuomenės profesorė Ericka Johnson dirbo su mašinų mokymosi mokslininku, kad pademonstruotų šį reiškinį. Jie naudojo generatyvinį prieštaringą tinklą Norėdami sukurti sintetines versijas iš 1990 m. Iš Jungtinių Valstijų surašymo.

Iškart jie pastebėjo akivaizdžią problemą. Dirbtinėje versijoje buvo kategorijos pavadinimu „žmona ir vieniša“ ir „niekada nesusituokę vyrai“, kurios abi buvo susikertančios haliucinacijos.

Neturėdamas tinkamo kuravimo, duomenų bazės replikos duomenų bazė visada bus per daug dominuojančių duomenų rinkinių pogrupiuose, o nepakankamai atstovaujant ar net neįtraukiantiems grupėms. Bendrosios atvejų ir nuokrypių gali būti visiškai nepaisoma dominuojančių tendencijų.

Modelio žlugimas

Per didelis ar dirbtinių modelių ir tendencijų per didelis pasitikėjimas lemia modelio žlugimą-kai algoritmo našumas smarkiai pablogėja, nes jis tampa mažiau pritaikomas realaus pasaulio stebėjimams ir įvykiams.

Šis reiškinys ypač akivaizdus naujos kartos generacinėje AI. Pakartotinai naudojant dirbtinę versiją, kad būtų galima išmokyti jas, sukelia savaime suprantamą kilpą. Viename tyrime nustatyta, kad jų kokybės ir prisiminimo nuosmukis Palaipsniui be pakankamai naujausių, faktinių kiekvienos kartos skaičiaus.

Per didelis

Per didelis mokymo duomenys yra per didelis pasitikėjimas mokymo duomenimis. Iš pradžių algoritmas veikia gerai, tačiau, kai bus pateiktas naujais duomenų taškais, bus haliucinuotas. Sintetinė informacija gali sudėti šią problemą, jei ji tiksliai neatspindi tikrovės.

Tęstinio sintetinio duomenų naudojimo padariniai

Sintetinių duomenų rinka klesti. Šios nišos pramonės įmonės surinko apie 328 milijonus dolerių 2022 m., Nuo 53 mln. USD 2020 m. – 518% padidėjo vos per 18 mėnesių. Verta paminėti, kad tai yra tik viešai žinomas finansavimas, tai reiškia, kad tikrasis skaičius gali būti dar didesnis. Galima drąsiai teigti, kad įmonės yra neįtikėtinai investuotos į šį sprendimą.

Jei firmos ir toliau naudoja dirbtinę duomenų bazę, be tinkamos kuravimo ir nusiteikimo, jų modelio veikla palaipsniui mažės, padidindamos jų AI investicijas. Rezultatai gali būti sunkesni, atsižvelgiant į taikymą. Pavyzdžiui, sveikatos priežiūros srityje haliucinacijų padidėjimas gali sukelti klaidingą diagnozę ar netinkamus gydymo planus, dėl kurių pacientų rezultatai bus prastesni.

Sprendimas nebus susijęs su realiais duomenimis

AI sistemoms reikia milijonų, jei ne milijardų vaizdų, teksto ir vaizdo įrašų mokymui, kurių didžioji dalis yra iškasta iš viešų svetainių ir sudaro masyviuose, atviruose duomenų rinkiniuose. Deja, algoritmai šią informaciją sunaudoja greičiau, nei žmonės gali ją sugeneruoti. Kas nutinka, kai jie visko mokosi?

Verslo lyderiams rūpi paspausti duomenų sieną – tašką, kuriame buvo išnaudota visa vieša informacija internete. Tai gali būti artėja greičiau, nei jie galvoja.

Nors abu paprasto teksto kiekis vidutiniame bendrojo nuskaitymo tinklalapyje ir interneto vartotojų skaičius auga nuo 2% iki 4% Kasmet algoritmams trūksta aukštos kokybės duomenų. Treniruotėms gali būti naudojamas tik 10–40%, nepakenkiant veiklai. Jei tendencijos tęsis, iki 2026 m. Galėtų baigtis žmonių sukurta visuomenės informacijos atsargos.

Tikėtina, kad AI sektorius gali paspausti duomenų sieną dar greičiau. Per pastaruosius kelerius metus generatyvus AI bumas padidino įtampą dėl informacijos nuosavybės ir autorių teisių pažeidimų. Daugiau svetainių savininkų naudoja robotų pašalinimo protokolą-standartą, kuris naudoja robotus.txt failą, kad blokuotų žiniatinklio tikrinimo įrenginius-arba paaiškina, kad jų svetainė yra neribota.

2024 m. Tyrimas, kurį paskelbė MIT vadovaujama tyrimų grupė, atskleidė, kad didžiulės išvalytos bendrojo nuskaitymo (C4) duomenų rinkinio-plataus masto žiniatinklio nuskaitymo korpuso-apribojimai didėja. Virš 28% aktyviausių, kritinių šaltinių C4 buvo visiškai apriboti. Be to, 45% C4 dabar nustato neribotus paslaugų teikimo sąlygas.

Jei firmos gerbia šiuos apribojimus, realaus pasaulio viešųjų faktų šviežumas, aktualumas ir tikslumas sumažės, privers juos pasikliauti dirbtinėmis duomenų bazėmis. Jie gali neturėti daug pasirinkimo, jei teismai nuspręs, kad bet kuri alternatyva yra autorių teisių pažeidimas.

Sintetinių duomenų ir AI haliucinacijų ateitis

Kadangi autorių teisių įstatymai modernizuoti ir daugiau svetainių savininkų slepia savo turinį nuo žiniatinklio tikrinimo įrenginių, vis populiarėja dirbtinė duomenų rinkinio generavimas. Organizacijos turi ruoštis susidurti su haliucinacijų grėsme.


Source link

Jums tai gali patikti

Daugiau iš autoriaus