OpenAI pristato Realtime API ir kitas kūrėjams skirtas funkcijas

Estimated read time 4 min read


„OpenAI“ savo „Dev Day“ renginyje neišleido jokių naujų modelių, tačiau naujos API funkcijos sužadins kūrėjus, norinčius naudoti savo modelius galingoms programoms kurti.

OpenAI turėjo sunkių savaičių, kai jos CTO, Mira Murati ir kiti pagrindiniai mokslininkai prisijungė prie nuolat augančio buvusių darbuotojų sąrašo. Įmonei vis didėja spaudimas dėl kitų pavyzdinių modelių, įskaitant atvirojo kodo modelius, kurie kūrėjams siūlo pigesnes ir labai galingas galimybes.

Naujos „OpenAI“ pristatytos funkcijos buvo Realtime API (beta), regėjimo koregavimas ir efektyvumo didinimo įrankiai, pvz., greitas talpyklos kaupimas ir modelio distiliavimas.

Realiojo laiko API

Realtime API yra pati įdomiausi nauja funkcija, nors ir beta versijoje. Tai leidžia kūrėjams kurti mažos delsos, kalbos į kalbą patirtį savo programose, nenaudojant atskirų kalbos atpažinimo ir teksto į kalbą konvertavimo modelių.

Naudodami šią API, kūrėjai dabar gali sukurti programas, leidžiančias realiuoju laiku kalbėtis su AI, pvz., balso asistentus ar kalbų mokymosi įrankius, naudodami vieną API skambutį. Tai nėra visiškai sklandi patirtis, kurią siūlo GPT-4o išplėstinis balso režimas, tačiau jis yra artimas.

Tačiau tai nėra pigu – maždaug 0,06 USD už minutę garso įvesties ir 0,24 USD už garso išvesties minutę.

Regėjimo koregavimas

Tikslus vizijos derinimas API leidžia kūrėjams pagerinti savo modelių gebėjimą suprasti vaizdus ir su jais sąveikauti. Tiksliai sureguliuodami GPT-4o naudodami vaizdus, ​​kūrėjai gali sukurti programas, kurios puikiai tinka tokioms užduotims kaip vizualinė paieška ar objektų aptikimas.

Šią funkciją jau naudoja tokios įmonės kaip „Grab“, kuri pagerino savo žemėlapių sudarymo paslaugos tikslumą sureguliuodama modelį, kad atpažintų eismo ženklus iš gatvės lygio vaizdų.

„OpenAI“ taip pat pateikė pavyzdį, kaip GPT-4o gali sukurti papildomą svetainės turinį po to, kai buvo sureguliuotas, kad stilistiškai atitiktų esamą svetainės turinį.

Greitas kaupimas talpykloje

Siekdama pagerinti sąnaudų efektyvumą, OpenAI pristatė greitą talpyklą – įrankį, kuris sumažina dažnai naudojamų API skambučių išlaidas ir delsą. Pakartotinai naudodami neseniai apdorotas įvestis, kūrėjai gali sumažinti išlaidas 50 % ir sutrumpinti atsako laiką. Ši funkcija ypač naudinga programoms, kurioms reikia ilgų pokalbių ar pasikartojančio konteksto, pvz., pokalbių robotams ir klientų aptarnavimo įrankiams.

Naudojant talpykloje esančias įvestis galima sutaupyti iki 50 % įvesties prieigos rakto išlaidų.

„OpenAI“ API talpykloje esančių ir neišsaugotų įvesties prieigos raktų kainų palyginimas. Šaltinis: OpenAI

Distiliavimo modelis

Modelių distiliavimas leidžia kūrėjams tiksliai sureguliuoti mažesnius, ekonomiškesnius modelius, naudojant didesnių, labiau pajėgių modelių rezultatus. Tai keičia žaidimą, nes anksčiau distiliavimui reikėjo kelių atjungtų žingsnių ir įrankių, todėl tai buvo daug laiko reikalaujantis ir klaidų procesas.

Prieš įdiegdami OpenAI integruotą modelių distiliavimo funkciją, kūrėjai turėjo rankiniu būdu organizuoti įvairias proceso dalis, pvz., generuoti duomenis iš didesnių modelių, ruošti koreguojančius duomenų rinkinius ir išmatuoti našumą įvairiais įrankiais.

Kūrėjai dabar gali automatiškai saugoti didesnių modelių, pvz., GPT-4o, išvesties poras ir naudoti tas poras smulkesniems modeliams, pvz., GPT-4o-mini, reguliuoti. Visas duomenų rinkinio kūrimo, tikslinimo ir vertinimo procesas gali būti atliktas labiau struktūrizuotu, automatizuotu ir efektyvesniu būdu.

Supaprastintas kūrėjo procesas, mažesnė delsa ir mažesnės išlaidos padarys OpenAI GPT-4o modelį patrauklia perspektyva kūrėjams, norintiems greitai įdiegti galingas programas. Bus įdomu pamatyti, kokias programas suteikia daugiarūšės funkcijos.





Source link

Jums taip pat gali patikti

Daugiau iš autoriaus