A Naujas tyrimas Iš LMU Miuncheno, Miuncheno mašinų mokymosi centro ir „Adobe Research“ tyrėjų, atskleidė silpnumą AI kalbos modeliai: Jie stengiasi suprasti ilgus dokumentus tokiu būdu, kuris galėtų jus nustebinti. Tyrimo komandos išvados rodo, kad net ir patys pažangiausiems AI modeliams sunku sujungti informaciją, kai jie negali pasikliauti paprastu žodžių suderinimu.
Paslėpta AI skaitymo įgūdžių problema
Nuotrauka bando rasti konkrečią detalę ilgame tyrime. Galite peržengti jį, užmezgdami protinius ryšius tarp skirtingų skyrių, kad sujungtumėte jums reikalingą informaciją. Pasirodo, daugybė AI modelių visai neveikia. Vietoj to, jie dažnai labai pasikliauja ieškodami tikslių žodžių atitikmenų, panašių į „Ctrl+F“ naudojimą jūsų kompiuteryje.
Tyrimo komanda sukūrė naują etaloną, pavadintą „Nolima“ (be pažodžiui atitikimo), kad patikrintų įvairius AI modelius. Rezultatai parodė, kad kai AI modeliai susiduria su ilgesniais nei 2000 žodžių tekstais, jų našumas dramatiškai sumažėja. Iki to laiko, kai jie pasiekia 32 000 žodžių – apie trumpos knygos ilgį – dauguma modelių atlieka pusę savo įprastų galimybių. Tai apėmė pagrindinių modelių, tokių kaip GPT-4oAr „Gemini 1.5 Pro“ir lama 3.3 70b.
Apsvarstykite medicinos tyrėją, naudojantį AI pacientų įrašams analizuoti, arba legalią komandą, naudojančią AI, kad peržiūrėtų bylų dokumentus. Jei AI praleidžia esminius ryšius, nes atitinkama informacija vartoja skirtingus žodžius nei paieškos užklausa, pasekmės gali būti reikšmingos.
Kodėl neužtenka žodžių derinimo
Dabartiniai PG modeliai apdoroja tekstą naudojant tai, kas vadinama dėmesio mechanizmu. Ši sistema padeda AI sutelkti dėmesį į skirtingas teksto dalis, kad suprastų žodžių ir idėjų ryšius. Dirbant su trumpesniais tekstais, tai veikia pakankamai gerai. Tačiau tyrimas rodo, kad šis mechanizmas yra priblokštas, nes tekstai ilgėja, ypač kai jis negali pasikliauti tiksliomis žodžių atitikmenimis.
„Nolima“ testas atskleidė šį apribojimą užduodant AI modelių klausimus, kur atsakymai reikalauja suprasti kontekstą, o ne rasti suderintus žodžius. Rezultatai buvo pasakojami. Nors modeliai gerai veikė su trumpais tekstais, jų sugebėjimas užmegzti šias ryšius smarkiai sumažėjo, kai teksto ilgis padidėjo. Net specializuoti modeliai, skirti samprotavimo užduotims, buvo mažesnis nei 50% tikslumas, kai susiduriama su ilgesniais dokumentais.
Be žodžių suderinimo ramento, AI modeliai stengėsi:
- Sujungti susijusias sąvokas, kurios naudoja skirtingą terminiją
- Vykdykite kelių žingsnių samprotavimo kelius
- Raskite svarbios informacijos, kai ji pasirodė po pagrindinio konteksto
- Nepaisykite klaidinančių žodžių atitikčių nesvarbiuose skyriuose
Skaičiai pasakoja istoriją
Tyrimo išvados parodo ryškų vaizdą, kaip AI modeliai tvarko ilgesnius tekstus. „GPT-4o“ parodė stipriausią našumą, išlaikydamas efektyvumą iki maždaug 8000 žetonų (maždaug 6000 žodžių). Tačiau net šis geriausias atlikėjas parodė reikšmingą nuosmukį su ilgesniais tekstais. Daugelyje kitų modelių, įskaitant „Gemini 1.5 Pro“ ir „LLAMA 3.3 70B“, patyrė aštrų našumo kritimą nuo 2 000 iki 8000 žetonų.
Našumo nuosmukis tapo dar ryškesnis, kai užduotims reikėjo kelių samprotavimo žingsnių. Pavyzdžiui, jei modelį reikėjo užmegzti dviem loginiams ryšiams – pavyzdžiui, supratimas, kad veikėjas gyveno netoli orientyro, o orientyras buvo konkrečiame mieste, sėkmės procentas smarkiai sumažėjo. Tyrimai parodė, kad tokio tipo daugialypiai samprotavimai tapo ypač sudėtingi tekstuose, viršijančiuose 16 000 žetonų, net ir naudojant metodus, skirtus pagerinti samprotavimus, pavyzdžiui, Minimos grandinės raginimas.
Šias išvadas ypač atkreiptas dėmesys į tai, kad jie meta iššūkį teiginiams dėl AI modelių sugebėjimo tvarkyti ilgą kontekstą. Nors daugelis modelių reklamuoja paramą plačiam kontekstiniam langams, „Nolima“ etalonas rodo, kad efektyvus supratimas gerokai sumažėja prieš pasiekiant šias teorines ribas.
Šaltinis: Modarressi ir kt.
Kai Ai praleidžia mišką medžiams
Šie apribojimai daro rimtą poveikį tam, kaip mes naudojame AI realiame pasaulyje. Apsvarstykite teisinę AI sistemos paiešką per teismų praktiką. Tai gali praleisti atitinkamus precedentus vien todėl, kad jie naudoja skirtingą terminiją nei paieškos užklausa. Vietoj to, sistema galėtų sutelkti dėmesį į mažiau svarbius atvejus, kurie dalijasi daugiau žodžių su paieškos terminais.
Poveikis paieškai ir dokumentų analizei ypač susijęs su. Dabartinės AI varomos paieškos sistemos dažnai remiasi technika, vadinama Gauna žudynių karta (skuduras). Net tada, kai šios sistemos sėkmingai atgauna dokumentą, kuriame yra tinkama informacija, AI gali nepripažinti jo aktualumo, jei formuluotė skiriasi nuo užklausos. Vietoj to, PG gali kreiptis į mažiau svarbių dokumentų, kurie turi paviršiaus lygio panašumus su paieškos terminais.
AI vartotojams šie duomenys rodo keletą svarbių aspektų:
PirmaTrumpesnės užklausos ir dokumentai greičiausiai duos patikimesnių rezultatų. Dirbant su ilgesniais tekstais, suskaidydami juos į mažesnius, sutelktus segmentus, gali padėti išlaikyti AI našumą.
Antravartotojai turėtų būti ypač atsargūs, kai prašo AI užmegzti ryšius įvairiose ilgo dokumento dalyse. Tyrimas rodo, kad AI modeliai daugiausiai kovoja, kai jiems reikia sujungti informaciją iš skirtingų skyrių, ypač kai ryšys nėra akivaizdus per bendrą žodyną.
PagaliauŠie apribojimai pabrėžia nuolatinę žmonių priežiūros svarbą. Nors AI gali būti galinga priemonė apdoroti ir analizuoti tekstą, jis neturėtų būti remiamasi kaip vienintelė priemonė, leidžianti nustatyti svarbius ryšius ilguose ar sudėtinguose dokumentuose.
Rezultatai yra priminimas, kad nepaisant greito AI technologijos pažangos, šios sistemos vis dar apdoroja informaciją labai skirtingai nei žmonės. Šių apribojimų supratimas yra labai svarbus norint efektyviai naudoti AI įrankius ir žinoti, kada žmogaus sprendimas išlieka būtinas.
Kas bus toliau
Suprasti dabartinių AI modelių gebėjimo apdoroti ilgus tekstus apribojimus atveria svarbius klausimus apie AI plėtros ateitį. „Nolima“ etalono tyrimai atskleidė, kad mūsų dabartiniai požiūriai į AI teksto apdorojimą gali reikėti žymiai patobulinti, ypač kaip modeliai tvarko informaciją per ilgesnes ištraukas.
Dabartiniai sprendimai parodė tik dalinę sėkmę. Mokomųjų grandinės raginimas, skatinantis PG modelius suskaidyti savo samprotavimus į žingsnius, padeda šiek tiek pagerinti našumą. Pavyzdžiui, naudodama šią techniką, „Lama 3.3 70b“ parodė geresnį sugebėjimą tvarkyti ilgesnius kontekstus. Tačiau šis požiūris vis dar trunka, kai reikia spręsti apie 16 000 žetonų tekstus, o tai rodo, kad mums reikia svarbesnių sprendimų.
Dėmesio mechanizmą, kuris sudaro pagrindinį, kaip dabartiniams AI modelių proceso tekstui reikia pergalvoti. Pagalvokite apie tai, kaip bandyti užmegzti pokalbį perpildytame kambaryje – kuo ilgiau pokalbis praeis, tuo sunkiau sekti visus svarbius dalykus, kurie buvo paminėti anksčiau. Dabartiniai mūsų AI modeliai susiduria su panašiu iššūkiu, tačiau daug didesniu mastu.
Žvelgdami į ateitį, tyrėjai tyrinėja keletą perspektyvių krypčių. Vienas iš būdų apima naujų AI būdų, kaip organizuoti ir prioritetuoti informaciją ilguose tekstuose, kūrimas, pereinant nuo paprasto žodžio suderinimo, kad suprastumėte gilesnius konceptualius ryšius. Tai gali labiau veikti panašiai, kaip žmonės kuria protinius informacijos žemėlapius, sujungdami idėjas, pagrįstas prasme, o ne tik bendrą žodyną.
Kitoje plėtros srityje dėmesys sutelkiamas į tai, kaip AI modeliai tvarko tai, ką tyrėjai vadina „latentiniais apyniais“ – loginius veiksmus, reikalingus sujungti skirtingas informacijos dalis. Dabartiniai modeliai kovoja su šiomis jungtimis, ypač ilgesniuose tekstuose, tačiau naujos architektūros gali padėti užpildyti šią spragą.
Tiems, kurie šiandien dirba su AI įrankiais, šios išvados siūlo keletą praktinių metodų:
Dirbdami su AI, apsvarstykite galimybę suskaidyti ilgesnius dokumentus į prasmingus segmentus. Tai padeda sukurti loginius skyrius, kurie išsaugo svarbų kontekstą. Pvz., Jei analizuojate tyrimo dokumentą, galite išlaikyti metodikos ir rezultatų skyrius kartu, nes juose dažnai yra susijusios informacijos.
Klausdami AI analizuoti ilgesnius tekstus, būkite konkretūs apie norimus ryšius. Užuot uždavę plačius klausimus, nukreipkite AI į konkrečius ryšius, kuriuos norite ištirti. Tai padeda kompensuoti dabartinius modelio apribojimus, kad šie ryšiai būtų savarankiškai.
Turbūt svarbiausia, kad būtų išaiškinami realūs lūkesčiai dėl AI galimybių su ilgais tekstais. Nors šios priemonės gali būti be galo naudingos atliekant daugelį užduočių, jos neturėtų būti traktuojamos kaip išsamūs sudėtingų dokumentų žmogaus analizės pakeitimai. Žmogaus gebėjimas išlaikyti kontekstą ir užmegzti konceptualius ryšius tarp ilgų tekstų išlieka pranašesnis už dabartines AI galimybes.
Kelias, einantis AI plėtrai šioje srityje, yra sudėtingas ir įdomus. Kadangi geriau suprantame šiuos apribojimus, galime dirbti su AI sistemomis, kurios iš tikrųjų supranta ilgus tekstus, o ne tik juos apdoroja. Iki tol AI naudojant AI reiškia darbą su dabartiniais apribojimais, tuo pačiu vertinant stipriąsias puses.
Source link