Daugybė sustiprinimo mokymosi veidų: didelių kalbos modelių formavimas

Estimated read time 7 min read

Pastaraisiais metais dideli kalbų modeliai (LLM) žymiai iš naujo apibrėžė dirbtinio intelekto (AI) sritį, leidžiančią mašinoms suprasti ir generuoti į žmogų panašų tekstą su nuostabiu įgūdžiu. Ši sėkmė daugiausia priskiriama mašinų mokymosi metodikų pažangai, įskaitant giluminį mokymąsi ir pastiprinimo mokymąsi (RL). Nors prižiūrimas mokymasis vaidino lemiamą vaidmenį mokant LLMS, pastiprinimo mokymasis tapo galinga priemonė patobulinti ir sustiprinti jų galimybes, išskyrus paprastą modelio atpažinimą.

Stiprinimo mokymasis leidžia LLMS mokytis iš patirties, optimizuodamas jų elgesį, atsižvelgiant į atlygį ar baudas. Skirtingi RL variantai, tokie kaip sustiprinimo mokymasis iš žmonių atsiliepimų (RLHF), sustiprinimo mokymas užtikrinti jų suderinimą su žmogaus pageidavimais ir pagerinti jų samprotavimo sugebėjimus.

Šiame straipsnyje nagrinėjami įvairūs sustiprinimo mokymosi metodai, formuojantys LLM, nagrinėjant jų indėlį ir poveikį AI plėtrai.

Suprasti sustiprinimo mokymąsi AI

Stiprinimo mokymasis (RL) yra mašininio mokymosi paradigma, kai agentas išmoksta priimti sprendimus bendraudamas su aplinka. Užuot pasikliaudamas tik pažymėtais duomenų rinkiniais, agentas imasi veiksmų, gauna atsiliepimą atlygio ar baudų pavidalu ir atitinkamai koreguoja jos strategiją.

LLMS sustiprinimo mokymasis užtikrina, kad modeliai generuoja atsakymus, kurie atitiktų žmonių pageidavimus, etines gaires ir praktinius pagrindimus. Tikslas yra ne tik sukurti sintaksiškai teisingus sakinius, bet ir padaryti juos naudingus, prasmingus ir suderintus su visuomenės normomis.

Stiprinimo mokymasis iš žmonių atsiliepimų (RLHF)

Vienas iš plačiausiai naudojamų RL metodų LLM treniruotėse yra RLHF. Užuot pasikliaudamas tik iš anksto nustatytais duomenų rinkiniais, RLHF pagerina LLM, įtraukdamas žmonių nuostatas į treniruočių kilpą. Šis procesas paprastai apima:

  1. Žmogaus atsiliepimų rinkimas: Žmogaus vertintojai vertina modelio sukurtus atsakymus ir suskirsto juos pagal kokybę, darną, paslaugumą ir tikslumą.
  2. Apdovanojimo modelio mokymas: Tada šie reitingai naudojami mokyti atskirą apdovanojimo modelį, kuris prognozuoja, kuriems žmonėms labiau patiktų.
  3. Tobulinimas su RL: LLM yra mokomas naudojant šį atlygio modelį, kad patikslintų jo atsakymus, pagrįstus žmonių nuostatomis.

Šis požiūris buvo naudojamas tobulinant tokius modelius kaip „ChatGPT“ ir „Claude“. Nors RLHF vaidino gyvybiškai svarbų vaidmenį, kad LLM labiau suderintų su vartotojo nuostatomis, mažina šališkumą ir padidintų jų sugebėjimą laikytis sudėtingų instrukcijų, tačiau tai reikalauja daug išteklių, reikalaujant daugybės žmonių anotatorių, kad būtų galima įvertinti ir patobulinti AI išvestis. Šis apribojimas paskatino tyrėjus ištirti alternatyvius metodus, tokius kaip sustiprinimo mokymasis iš AI grįžtamojo ryšio (RLAIF) ir sustiprinimo mokymąsi naudojant patikrinamą atlygį (RLVR).

RLAIF: stiprinimo mokymasis iš AI atsiliepimų

Skirtingai nuo RLHF, RLAIF remiasi AI sukurtomis nuostatomis mokyti LLM, o ne žmonių atsiliepimus. Jis veikia naudojant kitą AI sistemą, paprastai LLM, kad būtų galima įvertinti ir suskirstyti atsakymus, sukuriant automatizuotą atlygio sistemą, kuri galėtų padėti LLM mokymosi procesui.

Šis požiūris sprendžia su RLHF susijusius mastelio keitimo problemas, kai žmogaus anotacijos gali būti brangios ir reikalaujančios daug laiko. Pasinaudodamas AI atsiliepimais, RLAIF padidina nuoseklumą ir efektyvumą, sumažindamas kintamumą, kurį sukūrė subjektyvios žmogaus nuomonės. Nors RLAIF yra vertingas būdas patikslinti LLM mastelio mastu, jis kartais gali sustiprinti esamus AI sistemoje esančius paklaidas.

Stiprinimo mokymasis naudojant patikrinamą atlygį (RLVR)

Nors RLHF ir RLAIF remiasi subjektyviais atsiliepimais, RLVR naudoja objektyvą, programiškai patikrinamą atlygį mokyti LLM. Šis metodas yra ypač efektyvus atliekant užduotis, turinčias aiškų teisingumo kriterijų, pavyzdžiui::

  • Matematinis problemų sprendimas
  • Kodo generavimas
  • Struktūrizuotas duomenų apdorojimas

RLVR modelio atsakymai vertinami naudojant iš anksto nustatytas taisykles ar algoritmus. Patikrinama atlygio funkcija nustato, ar atsakymas atitinka numatomus kriterijus, priskiriant aukštą rezultatą teisingiems atsakymams ir žemą rezultatą neteisingiems.

Šis požiūris sumažina priklausomybę nuo žmonių ženklinimo ir AI šališkumo, todėl treniruotės tampa keičiamos ir ekonomiškesnės. Pavyzdžiui, atliekant matematinius samprotavimo užduotis, RLVR buvo naudojamas tobulinant tokius modelius kaip „Deepseeek“ R1-Zero, leidžiantis jiems savarankiškai nustatyti be žmogaus įsikišimo.

Optimizuojant LLM armatūros mokymąsi

Be minėtų metodų, kuriuose nurodoma, kaip LLMS gauna atlygį ir mokosi iš atsiliepimų, ne mažiau svarbus RL aspektas yra tai, kaip modeliai priima (arba optimizuoja) savo elgesį (arba politiką), remiantis šiais apdovanojimais. Čia atsiranda pažangių optimizavimo būdų.

RL optimizavimas iš esmės yra modelio elgesio atnaujinimo procesas siekiant maksimaliai padidinti atlygį. Nors tradiciniai RL požiūriai dažnai kenčia nuo nestabilumo ir neveiksmingumo, kai tiksliai suderina LLM, LLM optimizuoti buvo sukurti nauji metodai. Čia pateikiamos pagrindinės optimizavimo strategijos, naudojamos LLM mokyti:

  • Proksimalinės politikos optimizavimas (PPO): PPO yra vienas iš plačiausiai naudojamų RL metodų, skirtų patobulinti LLM. Pagrindinis RL iššūkis yra užtikrinti, kad modelio atnaujinimai pagerintų našumą be staigių, drastiškų pokyčių, kurie galėtų sumažinti reakcijos kokybę. PPO tai atkreipia dėmesį, įvedant kontroliuojamus politikos atnaujinimus, palaipsniui ir saugiai tobulinant modelio atsakymus, kad būtų išlaikytas stabilumas. Tai taip pat subalansuoja tyrinėjimą ir išnaudojimą, padėdamas modeliams atrasti geresnius atsakymus, tuo pačiu sustiprinant veiksmingą elgesį. Be to, PPO yra efektyvus mėginiu, naudojant mažesnes duomenų partijas, kad sutrumpintų treniruočių laiką, išlaikant aukštą našumą. Šis metodas yra plačiai naudojamas tokiuose modeliuose kaip „ChatGPT“, užtikrinant, kad atsakymai išliks naudingi, aktualūs ir suderinami su žmogaus lūkesčiais, neperduodant konkrečių atlygio signalų.
  • Tiesioginis pasirinkimo optimizavimas (DPO): DPO yra dar viena RL optimizavimo technika, orientuota į tiesioginį modelio išvesties optimizavimą, kad jis atitiktų žmogaus nuostatas. Skirtingai nuo tradicinių RL algoritmų, kurie remiasi sudėtingu apdovanojimo modeliavimu, DPO tiesiogiai optimizuoja modelį, pagrįstą dvejetainiais pasirinkimo duomenimis, tai reiškia, kad jis tiesiog nustato, ar vienas išėjimas yra geresnis už kitą. Šis požiūris remiasi žmonių vertintojais, kad būtų reitinguojami keli atsakymai, kuriuos sukuria modelis tam tikram raginimui. Tada jis tiksliai sureguliuoja modelį, kad padidintumėte aukštesnio rango atsakymų pateikimo ateityje tikimybę. DPO yra ypač efektyvus scenarijuose, kai sunku gauti išsamius atlygio modelius. Supaprastindamas RL, DPO leidžia AI modeliams pagerinti savo išėjimą be skaičiavimo naštos, susijusios su sudėtingesniais RL metodais.
  • Grupės santykinė politikos optimizavimas (GRPO): Vienas iš naujausių LLMS optimizavimo metodų RL optimizavimo metodų plėtros yra GRPO. Nors tipiniams RL metodams, tokiems kaip PPO, reikia vertės modelio, kad būtų galima įvertinti skirtingų atsakymų pranašumą, kuriam reikalinga didelė skaičiavimo galia ir reikšmingi atminties ištekliai, GRPO pašalina atskiro vertės modelio poreikį, naudodama apdovanojimo signalus iš skirtingų kartų tuo pačiu raginimu. Tai reiškia, kad užuot palyginęs išėjimus su statinės vertės modeliu, jis lygina juos tarpusavyje, žymiai sumažindamas skaičiavimo pridėtines išlaidas. Vienas ryškiausių GRPO programų buvo pastebėtas „Deepseeek R1-Zero“-modelis, kuris buvo mokomas visiškai be prižiūrimų derinimo ir jam pavyko ugdyti pažangių samprotavimo įgūdžius per savęs evoliuciją.

Esmė

Stiprinimo mokymasis vaidina lemiamą vaidmenį tobulinant didelių kalbų modelius (LLM), sustiprinant jų suderinimą su žmogaus nuostatomis ir optimizuojant jų samprotavimo sugebėjimus. Tokie metodai, tokie kaip RLHF, RLAIF ir RLVR, pateikia įvairius mokymosi apdovanojimų pagrindu metodus, o optimizavimo metodai, tokie kaip PPO, DPO ir GRPO, pagerina treniruočių efektyvumą ir stabilumą. Toliau tobulėjant LLM, sustiprinimo mokymosi vaidmuo tampa kritiškas, kad šie modeliai būtų intelektualesni, etiškesni ir pagrįsti.


Source link

Jums tai gali patikti

Daugiau iš autoriaus