OpenAI představuje hlasovou AI nové generace: Modely pro přirozené konverzace a plnění úkolů v reálném čase
InovaceSpolečnost OpenAI nedávno představila tři nové audio modely prostřednictvím svého API, čímž výrazně posiluje svůj tlak na umělou inteligenci pro hlasovou interakci v reálném čase.
Společnost OpenAI nedávno představila tři nové audio modely prostřednictvím svého API, čímž výrazně posiluje svůj tlak na umělou inteligenci pro hlasovou interakci v reálném čase. Tyto modely – GPT-Realtime-2, GPT-Realtime-Translate a GPT-Realtime-Whisper – jsou navrženy tak, aby posunuly možnosti hlasového softwaru a učinily jej užitečnějším v každodenních situacích, jako je řízení, navigace na letištích nebo získávání zákaznické podpory bez nutnosti psaní. OpenAI vnímá hlas jako jeden z nejpřirozenějších způsobů interakce se softwarem, což signalizuje širší posun v uživatelských rozhraních.
Stěžejním modelem této série je GPT-Realtime-2, který OpenAI popisuje jako svůj první hlasový model s rozumovými schopnostmi na úrovni GPT-5. Tento systém je schopen zpracovávat složitější požadavky, přirozeně zvládat přerušení konverzace a plynule v ní pokračovat. Důležitou novinkou je také podpora živého používání nástrojů, což vývojářům umožňuje integrovat AI s kalendáři, vyhledávacími systémy nebo jinými aplikacemi. AI pak může tyto akce vysvětlovat v reálném čase frázemi jako „kontroluji váš kalendář“ nebo „hledám to nyní“. Model také výrazně rozšířil své kontextové okno z 32K na 128K, což umožňuje delší konverzace a komplexnější úkoly bez ztráty kontextu. Zlepšila se i schopnost modelu plynuleji se zotavit z chyb a lépe rozumět terminologii specifické pro dané odvětví, včetně zdravotnického slovníku a vlastních jmen.
OpenAI sdílela také zlepšení výkonu v živé hlasové interakci. GPT-Realtime-2 (verze high) dosáhl o 15,2 % vyššího skóre na Big Bench Audio než GPT-Realtime-1.5, zatímco verze xhigh zlepšila skóre v plnění instrukcí o 13,8 % v testech Audio MultiChallenge. Tyto nové audio modely staví OpenAI do přímé konkurence s Googlem a jeho Gemini Live. Zatímco Gemini Live vyniká rychlými reakcemi a silnější jazykovou podporou, přístup OpenAI se zaměřuje spíše na přirozenost konverzací během delších interakcí, schopnost zvládat přerušení, používat nástroje během hovorů a „držet krok s mluvčím“.
Dalším představeným modelem je GPT-Realtime-Translate, model pro překlad v reálném čase navržený pro vícejazyčné konverzace. Dokáže překládat řeč z více než 70 vstupních jazyků do 13 výstupních jazyků, přičemž udržuje tempo s mluvčím. OpenAI vidí jeho využití v zákaznické podpoře, cestování a systémech pro mezijazykovou komunikaci. Příkladem je Deutsche Telekom, který již vyvíjí nástroje hlasové podpory, jež zákazníkům umožní mluvit v preferovaném jazyce, zatímco AI konverzace živě překládá.
Třetí novinkou je GPT-Realtime-Whisper, který se zaměřuje na živý přepis. Tento model převádí řeč na text v okamžiku, kdy osoba mluví, a podporuje tak streamované případy použití převodu řeči na text. Celkovým cílem OpenAI je posunout se od jednoduchých hlasových asistentů k systémům, které dokáží aktivně plnit úkoly během konverzací. Například společnost Zillow vyvíjí hlasového asistenta, který dokáže vyhledávat domy, filtrovat preference a plánovat prohlídky pouze na základě mluvených požadavků. Tyto modely posouvají audio systémy v reálném čase blíže k agentům, kteří dokáží „naslouchat, uvažovat, překládat, přepisovat a jednat, jak se konverzace vyvíjí“.