„Deepseek-R1“: AI samprotavimų pertvarkymas naudojant stiprinimo mokymąsi

Estimated read time 7 min read

„Deepseek-R1“ yra novatoriškas samprotavimo modelis, kurį pristatė Kinijoje įsikūrusi „Deepseeek AI Lab“. Šis modelis nustato naują etaloną atvirojo kodo AI samprotavimo galimybėms. Kaip išsamiai aprašyta lydinčiame tyrime, „Deepseek-R1“ vystosi iš „Deepseek“ V3 bazinio modelio ir pasinaudojant stiprinimo mokymu (RL), siekiant išspręsti sudėtingas samprotavimo užduotis, tokias kaip pažengusi matematika ir logika, su precedento neturinčiu tikslumu. Tyrimo dokumente pabrėžiamas novatoriškas mokymo požiūris, pasiekiami etalonai ir naudojamos techninės metodikos, siūlančios išsamią įžvalgą apie „Deepseek-R1“ galimybes AI kraštovaizdyje.

Kas yra sustiprinimo mokymasis?

Stiprinimo mokymasis yra mašininio mokymosi pogrupis, kai agentai mokosi priimti sprendimus bendraudami su savo aplinka ir gaudami atlygį ar baudas, remdamiesi jų veiksmais. Skirtingai nuo prižiūrimo mokymosi, kuris remiasi pažymėtais duomenimis, RL daugiausia dėmesio skiria bandymų ir klaidų tyrinėjimams, siekiant sukurti optimalią sudėtingų problemų politiką.

Ankstyvieji RL pritaikymai apima pastebimus „Deepmind“ ir „Openai“ proveržius žaidimų srityje. „Deepmind“ „Alphago“ garsiai panaudojo RL, kad nugalėtų žmonių čempionus „GO“ žaidime, mokymosi strategijose per „Self Play“-žygdarbį, kuris anksčiau buvo manomas dešimtmečiais. Panašiai „Openai“ pasinaudojo RL „DOTA 2“ ir kituose konkurencinguose žaidimuose, kuriuose AI agentai demonstravo galimybę planuoti ir vykdyti strategijas aukštos kokybės aplinkoje, esant netikrumui. Šios novatoriškos pastangos ne tik parodė RL sugebėjimą tvarkyti sprendimų priėmimą dinamiškoje aplinkoje, bet ir padėjo pagrindą jo pritaikymui platesnėse srityse, įskaitant natūralios kalbos apdorojimo ir samprotavimo užduotis.

Remdamiesi šiomis pagrindinėmis koncepcijomis, „Deepseeek-R1“ pradininkai, „Alphago Zero“ įkvėptas mokymo metodas, kad būtų pasiektas „atsirandantis“ samprotavimai, labai nesitikėdami žmogaus pažymėtų duomenų, atspindinčių svarbų etapą AI tyrimuose.

Pagrindinės „Deepseek-R1“ savybės

  1. Stiprinimo mokymosi mokymas: „Deepseek-R1“ naudoja unikalų daugiapakopį RL procesą, kad būtų galima patikslinti samprotavimo galimybes. Skirtingai nuo savo pirmtako „Deepseeek-R1-Zero“, kuris susidūrė su tokiais iššūkiais kaip kalbos maišymas ir prastas skaitomumas, „Deepseeek-R1“ apima prižiūrimą tobulinamą (SFT) su kruopščiai kuruojamais „šalto starto“ duomenimis, kad pagerintų darną ir vartotojo suderinimą.
  2. Spektaklis: „Deepseek-R1“ demonstruoja nepaprastą pagrindinių etalonų rezultatą:
    • Matematika-500: Pasiekta 97,3% Pass@1, pranokdami daugumą modelių tvarkant sudėtingas matematines problemas.
    • Kodeforos: Pasiekė 96,3% konkurencinio programavimo procentilį, o ELO reitingas buvo 2 029.
    • MMLU (masinis daugiafunkcinis kalbos supratimas): Įvertino 90,8% leidimą@1, parodydamas savo meistriškumą įvairiose žinių srityse.
    • „Aime 2024“ (Amerikos kvietimo matematikos egzaminas): Pranoko „Openai-O1“, kurio rezultatas@1 balas buvo 79,8%.
  3. Distiliavimas platesniam prieinamumui: „Deepseeek-R1“ galimybės yra distiliuojamos į mažesnius modelius, todėl pažengę samprotavimai yra prieinami su priverstinėmis ištekliais. Pavyzdžiui, distiliuoti 14B ir 32B modeliai aplenkė moderniausius atvirojo kodo alternatyvas, tokias kaip „QWQ-32B-PreView“, pasiekdamos 94,3% „Math-500“.
  4. Atviro kodo įmokos: Atvirai galima įsigyti „Deepseeek-R1-Zero“ ir šešis distiliuotus modelius (nuo 1,5b iki 70b parametrų). Šis prieinamumas skatina naujoves tyrimų bendruomenėje ir skatina bendradarbiavimo pažangą.

„Deepseek-R1“ treniruočių vamzdynas „Deepseek-R1“ plėtra apima:

  • Šalta pradžia: Pradiniame mokyme naudojami tūkstančiai žmogaus kurtų mąstymo grandinės (COT) duomenų taškų, kad būtų galima nustatyti nuoseklią samprotavimo sistemą.
  • Į samprotavimus orientuotas RL: Patobulina modelį, skirtą atlikti matematikos, kodavimo ir daug logiką reikalaujančias užduotis, tuo pačiu užtikrinant kalbos nuoseklumą ir darną.
  • Stiprinimo mokymasis apibendrinimui: Įtraukia vartotojo nuostatas ir suderina su saugos gairėmis, kad būtų galima sukurti patikimus išėjimus įvairiose srityse.
  • Distiliavimas: Mažesni modeliai yra tiksliai suderinti naudojant distiliuotus „Deepseeek-R1“ samprotavimų modelius, žymiai padidinančius jų efektyvumą ir našumą.

Pramonės įžvalgos Garsūs pramonės lyderiai pasidalino savo mintimis apie „Deepseek-R1“ poveikį:

„Ted Miracco“, kreipkitės į generalinį direktorių: „„ Deepseek “sugebėjimas duoti rezultatus, panašius į Vakarų AI milžinus, naudojančius ne„ Premium “lustus, sukėlė didžiulį tarptautinį interesą-susidomėjimą dar labiau padidino naujausios naujienos apie Kinijos programas, tokias kaip„ Tiktok Ban “ir„ Rednote “migracija. Jo įperkamumas ir pritaikomumas yra aiškūs konkurenciniai pranašumai, o šiandien „Openai“ palaiko inovacijų ir pasaulinės įtakos lyderystę. Šis išlaidų pranašumas atveria duris į neišspręstą ir paplitusią prieigą prie AI, kuri tikrai bus ir jaudinanti, ir labai žlugdanti. “

Lawrence Pingree, vp, dispersinis: „Didžiausias R1 modelių pranašumas yra tas, kad jis pagerina tobulinimą, minties samprotavimo grandinę ir žymiai sumažina modelio dydį-tai reiškia, kad jis gali būti naudingas didesniam naudojimo atvejų ir mažiau skaičiavimui, kad būtų galima apskaičiuoti tokią aukštesnę kokybę ir žemesnę kokybę ir žemesnę skaičiavimo išlaidos “.

Mali Gorantla, „AppSoc“ vyriausiasis mokslininkas (AI valdymo ir taikymo saugumo ekspertas): „Technikos proveržiai retai būna sklandžiai ar nederlingai. Kaip „Openai“ prieš dvejus metus sutrikdė pramonę su „ChatGPT“, atrodo, kad „Deepseek“ pasiekė išteklių efektyvumo proveržį – sritis, kuri greitai tapo Achilo pramonės kulnu.

Bendrovės, pasitikinčios žiauriomis jėgomis, į savo sprendimus pila neribotą perdirbimo galią, išlieka pažeidžiamos dėl startuolių ir užsienio vystytojų, kurie diegia naujoves dėl būtinybės. Sumažinę įėjimo išlaidas, šie proveržiai žymiai padidins prieigą prie masiškai galingos AI, suteikdama teigiamų pasiekimų, iššūkių ir kritinių padarinių saugumui. “

Etaloniniai laimėjimai „Deepseek-R1“ įrodė savo pranašumą daugybėje užduočių:

  • Edukaciniai etalonai: Demonstruoja puikius MMLU ir GPQA deimantų rezultatus, daugiausia dėmesio skiriant su STEM susijusiais klausimais.
  • Kodavimas ir matematinės užduotys: „LiveCodeBench“ ir „Aime 2024“ viršijimo uždarojo kodo modeliai.
  • Bendras atsakymas į klausimą: „Alpacaeval2.0“ ir „Arenahard“ ir „Arenahard“ pasiekia atvirų sričių užduotis, kurių ilgis kontroliuojamas 87,6%.

Poveikis ir padariniai

  1. Efektyvumas virš skalės: „Deepseeek-R1“ plėtra pabrėžia efektyvių RL metodų potencialą, palyginti su didžiuliais skaičiavimo ištekliais. Šis požiūris abejoja dėl AI mokymo duomenų centrų būtinybės, kaip parodė 500 milijardų dolerių vertės „Stargate“ iniciatyva, kuriai vadovauja „Openai“, „Oracle“ ir „Softbank“.
  2. Atviro kodo sutrikimas: Perspėję kai kuriuos uždaro kodo modelius ir puoselėjant atvirą ekosistemą, „Deepseeek-R1“ iššūkis AI pramonės priklausomybei nuo patentuotų sprendimų.
  3. Aplinkosaugos sumetimai: Efektyvūs „Deepseek“ mokymo metodai sumažina anglies pėdsaką, susijusį su AI modelio kūrimu, suteikiant kelią tvaresnio AI tyrimams.

Apribojimai ir ateities kryptys Nepaisant savo pasiekimų, „Deepseek-R1“ turi tobulinimo sričių:

  • Kalbos palaikymas: Šiuo metu optimizuotas anglų ir kinų kalba, „Deepseek-R1“ retkarčiais maišo kalbas savo išvestuose. Ateities atnaujinimuose siekiama sustiprinti daugiakalbį nuoseklumą.
  • Greitas jautrumas: Keletas šūvių skatina bloginti našumą, pabrėžiant, kad reikia tolesnių greitų inžinerijos patobulinimų.
  • Programinės įrangos inžinerija: Nors „Deepseek-R1“ puikiai tinka STEM ir logikai, turi galimybių augti programinės įrangos inžinerijos užduotims.

„Deepseeek AI Lab“ planuoja išspręsti šiuos apribojimus vėlesnėse iteracijose, sutelkdamas dėmesį į platesnį kalbų palaikymą, skubių inžinerijos ir išplėstų duomenų rinkinius, skirtus specializuotoms užduotims.

Išvada

„Deepseek-R1“ yra AI samprotavimo modelių žaidimų keitiklis. Jos sėkmė pabrėžia, kaip kruopštus optimizavimas, novatoriškos stiprinimo mokymosi strategijos ir aiškus dėmesys efektyvumui gali įgalinti pasaulinės klasės AI galimybes, nereikalaujant didžiulių finansinių išteklių ar pažangiausios aparatinės įrangos. Parodydamas, kad modelis gali konkuruoti su pramonės lyderiais, pavyzdžiui, „Openai“ GPT serijomis, dirbdamas su biudžeto dalimi, „Deepseeek-R1“ atveria duris į naują išteklių taupymo AI kūrimo erą.

Modelio vystymasis meta iššūkį pramonei, kai reikia žiaurios jėgos mastelio, kai visada daroma prielaida, kad daugiau skaičiavimo prilygsta geresniems modeliams. Šis AI galimybių demokratizavimas žada ateitį, kai pažangios samprotavimo modeliai yra prieinami ne tik didelėms technologijų įmonėms, bet ir mažesnėms organizacijoms, tyrimų bendruomenėms ir pasaulinėms novatoriams.

AI lenktynėms sustiprėjus, „Deepseek“ yra inovacijų švyturys, įrodantis, kad išradingumas ir strateginis išteklių paskirstymas gali įveikti kliūtis, tradiciškai susijusias su pažengusia AI vystymuisi. Tai parodo, kaip tvarus, efektyvus požiūris gali sukelti novatoriškus rezultatus, sudarydamas precedentą dirbtinio intelekto ateičiai.


Source link

Jums tai gali patikti

Daugiau iš autoriaus