Didelių kalbų modeliai (LLM) labai pasikeitė. Tai, kas prasidėjo kaip paprastos teksto generavimo ir vertimo įrankiai, dabar naudojami atliekant tyrimus, sprendimų priėmimą ir sudėtingą problemų sprendimą. Pagrindinis šio poslinkio veiksnys yra didėjantis LLM gebėjimas sistemingiau mąstyti, suskaidant problemas, vertinant įvairias galimybes ir dinamiškai patobulinti jų atsakymus. Užuot tik numatę kitą žodį iš eilės, šie modeliai dabar gali atlikti struktūrizuotus samprotavimus, todėl jie bus veiksmingesni tvarkant sudėtingas užduotis. Pagrindiniai modeliai, tokie kaip „Openai’s O3“, „Google’s Gemini“ ir „Deepseek“ R1, integruoja šias galimybes, kad padidintų jų sugebėjimą efektyviau apdoroti ir analizuoti informaciją.
Suprasti modeliuojamą mąstymą
Žmonės natūraliai analizuoja skirtingas galimybes prieš priimdami sprendimus. Nesvarbu, ar planuojate atostogas, ar išspręsdami problemą, mes dažnai imituojame skirtingus planus, kad įvertintume kelis veiksnius, pasvertume privalumus ir trūkumus ir atitinkamai pakoreguotume savo pasirinkimus. Tyrėjai integruoja šį sugebėjimą į LLM, kad padidintų jų samprotavimo galimybes. Čia imituojamas mąstymas iš esmės reiškia LLMS sugebėjimą atlikti sistemingus samprotavimus prieš generuojant atsakymą. Tai priešingai nei paprasčiausias atsakymas iš saugomų duomenų. Naudinga analogija yra matematikos problemos sprendimas:
- Pagrindinis PG gali atpažinti modelį ir greitai sugeneruoti atsakymą nepatikrinant.
- PG, naudojant imituojamą samprotavimą, prieš atsakant, būtų patikrinta, ar nėra klaidų ir patvirtins jos logiką.
Matymo grandinė: mokymas AI galvoti žingsniuose
Jei LLM turi vykdyti imituotą mąstymą kaip žmonės, jie turi sugebėti suskaidyti sudėtingas problemas į mažesnius, nuoseklius žingsnius. Čia svarbų vaidmenį vaidina apgalvotos (COT) technika.
COT yra raginimo požiūris, kuris nurodo LLM metodiškai spręsti problemas. Užuot perėjęs prie išvadų, šis struktūruotas samprotavimo procesas leidžia LLMS suskirstyti sudėtingas problemas į paprastesnius, valdomus veiksmus ir išspręsti juos žingsnis po žingsnio.
Pavyzdžiui, sprendžiant žodžio problemą matematikoje:
- Pagrindinis PG gali bandyti suderinti problemą su anksčiau matytu pavyzdžiu ir pateikti atsakymą.
- AI, naudojantis mąstymo pagrindu, būtų išdėstytas kiekviename žingsnyje, logiškai atliekant skaičiavimus prieš atvykstant į galutinį sprendimą.
Šis požiūris yra efektyvus tose srityse, kurioms reikalingas loginis dedukcija, daugialypis problemų sprendimas ir kontekstinis supratimas. Nors ankstesniems modeliams reikėjo žmogaus pateiktų samprotavimų grandinių, tačiau pažangios LLM, pavyzdžiui, „Openai’s O3“ ir „Deepseek“ R1, gali išmokti ir pritaikyti COT samprotavimus.
Kaip pirmaujantys LLM įgyvendina imituotą mąstymą
Skirtingi LLM naudoja modeliuojamą mąstymą skirtingais būdais. Žemiau yra apžvalga, kaip „Openai“ O3, „Google Deepmind“ modeliai ir „Deepseeek-R1“ vykdo imituotą mąstymą kartu su jų stipriosiomis pusėmis ir apribojimais.
„Openai O3“: mąstymas į priekį kaip šachmatininkas
Nors tiksli informacija apie „Openai“ O3 modelį lieka neatskleista, tyrėjai mano, kad ji naudoja techniką, panašią į Monte Karlo medžio paiešką (MCTS)-strategiją, naudojamą AI varomuose žaidimuose, tokiuose kaip „Alphago“. Kaip šachmatų grotuvas, analizuojantis kelis judesius prieš priimdami sprendimą, O3 tyrinėja skirtingus sprendimus, įvertina jų kokybę ir pasirenka perspektyviausią.
Skirtingai nuo ankstesnių modelių, kurie remiasi modelio atpažinimu, O3 aktyviai generuoja ir tobulina samprotavimo kelius, naudodamas COT metodus. Išvados metu jis atlieka papildomus skaičiavimo veiksmus, kad būtų sukurtos kelios samprotavimo grandinės. Tada juos įvertina vertintojo modelis – greičiausiai atlygio modelis, išmokytas užtikrinti loginę darną ir teisingumą. Galutinis atsakymas pasirinktas remiantis balų skaičiavimo mechanizmu, kad būtų užtikrintas gerai pagrįstas išvestis.
O3 seka struktūrizuotą daugiapakopį procesą. Iš pradžių jis yra patobulintas didžiuliame žmogaus samprotavimo grandinių duomenų rinkinyje, internalizuodamas loginio mąstymo modelius. Išvadų metu jis sukuria kelis tam tikros problemos sprendimus, reitinguoja juos pagal teisingumą ir darną ir, jei reikia, patikslina geriausią. Nors šis metodas leidžia O3 savarankiškai pataisyti prieš reaguojant ir pagerinant tikslumą, kompromisas yra skaičiavimo išlaidos-norint, kad būtų galima išspręsti daugybę galimybių, reikia reikšmingos apdorojimo galios, todėl jis yra lėtesnis ir reikalaujantis išteklių. Nepaisant to, O3 išsiskiria dinamine analize ir problemų sprendimu, išdėstant ją tarp pažangiausių AI modelių.
„Google DeepMind“: atsakymų tobulinimas kaip redaktorius
„DeepMind“ sukūrė naują požiūrį, pavadintą „Mind Evolution“, kuris samprotavimus traktuoja kaip iteracinį tobulinimo procesą. Užuot analizavęs kelis būsimus scenarijus, šis modelis labiau primena redaktorių, tobulinantį įvairius esė projektus. Šis modelis sukuria keletą galimų atsakymų, įvertina jų kokybę ir patikslina geriausią.
Įkvėptas genetinių algoritmų, šis procesas užtikrina aukštos kokybės atsakymus per kartojimą. Tai ypač efektyvu atliekant struktūrizuotas užduotis, tokias kaip loginiai galvosūkiai ir programavimo iššūkiai, kai aiškūs kriterijai lemia geriausią atsakymą.
Tačiau šis metodas turi apribojimų. Kadangi atsakymo kokybei įvertinti ji remiasi išorine balų skaičiavimo sistema, ji gali kovoti su abstrakčiais samprotavimais be aiškaus teisingo ar neteisingo atsakymo. Skirtingai nuo O3, o tai dinamiškai priežastys realiuoju laiku, „Deepmind“ modelis sutelkia dėmesį į esamų atsakymų tobulinimą, todėl jis yra mažiau lankstus atviriems klausimams.
„Deepseek-R1“: mokymasis protas kaip studentas
„Deepseek-R1“ taiko sustiprinimo mokymosi metodą, leidžiantį laikui bėgant sukurti samprotavimo galimybes, o ne įvertinti kelis atsakymus realiuoju laiku. Užuot pasikliaudami iš anksto sugeneruotais samprotavimo duomenimis, „Deepseeek-R1“ mokosi spręsdama problemas, gaudamas grįžtamąjį ryšį ir iteriškai tobulindamas-panašiai kaip studentai tobulina savo problemų sprendimo įgūdžius praktikos metu.
Modelis seka struktūrizuotą sustiprinimo mokymosi kilpą. Jis prasideda nuo pagrindinio modelio, tokio kaip „Deepseek-V3“, ir yra paragintas žingsnis po žingsnio išspręsti matematines problemas. Kiekvienas atsakymas patikrinamas vykdant tiesioginį kodą, apeinant poreikį papildomam modeliui patvirtinti teisingumą. Jei sprendimas teisingas, modelis apdovanojamas; Jei jis neteisingas, jis nubaustas. Šis procesas yra pakartojamas plačiai, leidžiantis „Deepseek-R1“ patobulinti loginius samprotavimo įgūdžius ir laikui bėgant teikti pirmenybę sudėtingesnėms problemoms.
Pagrindinis šio požiūrio pranašumas yra efektyvumas. Skirtingai nuo O3, kuris daro didelius pagrindimus, „Deepseek-R1“ įterpia samprotavimo galimybes mokymo metu, todėl jis tampa greitesnis ir ekonomiškesnis. Tai labai keičiama, nes nereikia masyvaus pažymėto duomenų rinkinio ar brangiojo patikrinimo modelio.
Tačiau šis sustiprinimo mokymosi požiūris turi kompromisų. Kadangi ji priklauso nuo užduočių, turinčių patikrinamų rezultatų, ji pasižymi matematika ir kodavimu. Vis dėlto tai gali kovoti su abstrakčiais įstatymais, etika ar kūrybiniu problemų sprendimu. Nors matematiniai samprotavimai gali perkelti į kitas sritis, jo platesnis pritaikomumas išlieka neaiškus.
Lentelė: Palyginimas tarp Openai O3, Deepmindo proto evoliucijos ir Deepseeko R1
AI samprotavimo ateitis
Imituotas samprotavimas yra reikšmingas žingsnis link AI patikimesnio ir protingesnio. Tobulėjant šiems modeliams, pagrindinis dėmesys bus pereina nuo paprasčiausio teksto generavimo prie tvirtų problemų sprendimo gebėjimų, kurie labai primena žmogaus mąstymą, kūrimą. Būsimi patobulinimai greičiausiai sutelks dėmesį į AI modelių, galinčių nustatyti ir ištaisyti klaidas, integravimo į išorines priemones, kad būtų galima patikrinti atsakymus ir atpažinti netikrumą, kai susiduriama su dviprasmiška informacija. Tačiau pagrindinis iššūkis yra samprotavimo gylio suderinimas su skaičiavimo efektyvumu. Pagrindinis tikslas yra sukurti PG sistemas, kurios apgalvotai atsižvelgia į jų atsakymus, užtikrinant tikslumą ir patikimumą, panašiai kaip žmonių ekspertas, kruopščiai įvertinantis kiekvieną sprendimą prieš imdamiesi veiksmų.
Source link