Čínský DeepSeek uvádí AI model V4 s milionovým kontextovým oknem: Mění pravidla hry v kódování a analýze
InovaceČínská společnost DeepSeek představila preview verze svého nového AI modelu V4, zahrnující řady Flash a Pro. Tento krok signalizuje přímou výzvu pro přední americké platformy umělé inteligence, jako jsou Anthropic, Google a OpenAI, které nedávno také uvedly své novinky.
Čínská společnost DeepSeek představila preview verze svého nového AI modelu V4, zahrnující řady Flash a Pro. Tento krok signalizuje přímou výzvu pro přední americké platformy umělé inteligence, jako jsou Anthropic, Google a OpenAI, které nedávno také uvedly své novinky. Model V4 přináší významná vylepšení v oblastech kódování, uvažování a úloh řízených agenty, s jasným zaměřením na efektivitu a optimalizaci architektury, což je klíčové vzhledem k rostoucím nákladům na provoz AI systémů.
Jednou z hlavních inovací je takzvaná Hybrid Attention Architecture, která zlepšuje schopnost modelů udržet kontext v dlouhých konverzacích a minimalizuje ztrátu paměti při rozsáhlých interakcích. Systém navíc podporuje kontextové okno o velikosti jednoho milionu tokenů, což uživatelům umožňuje zadávat celé kódové základny nebo dlouhé dokumenty v jediném dotazu. Tato funkce by mohla zásadně změnit pracovní postupy ve vývoji softwaru a podnikové analýze, neboť umožňuje zpracování obrovského množství dat najednou.
DeepSeek se zaměřuje na efektivitu jako klíčovou konkurenční výhodu. Jeho systém s bilionem parametrů využívá přístup Mixture-of-Experts, který aktivuje jen zlomek parametrů pro každý úkol, čímž výrazně snižuje náklady na inferenci ve srovnání s tradičními modely. Modely jsou navrženy tak, aby běžely na domácím hardwaru, a očekává se, že náklady dále klesnou, jakmile budou spuštěny klastry poháněné čipy Huawei Ascend 950. To by mohlo snížit závislost na amerických výrobcích čipů a posílit čínskou AI infrastrukturu. Trhy reagovaly rychle, akcie čínských výrobců čipů vzrostly, zatímco konkurenční AI firmy zaznamenaly pokles.
DeepSeek sice přiznává, že V4 stále zaostává za nejpokročilejšími modely o tři až šest měsíců, ale zdůrazňuje svou nákladovou efektivitu a flexibilitu nasazení. Společnost jedná s Tencent Holdings a Alibaba Group o prvním kole financování, což naznačuje plány na rozšíření infrastruktury. DeepSeek nadále prosazuje open-source modely jako alternativu k uzavřeným systémům, což oslovuje vývojáře a podniky hledající větší kontrolu. Uvedení V4 na trh podtrhuje sílící globální konkurenci v oblasti umělé inteligence, kde se DeepSeek snaží redefinovat způsob vývoje AI systémů a ovlivnit, kdo bude lídrem v další fázi jejich rozvoje.
Interesting Engineering