Kvantové obvody otevírají novou cestu pro AI: Jazykové modely se učí efektivněji a s menšími nároky na paměť
InovaceVelké jazykové modely (LLM), které pohánějí chatboty jako ChatGPT, se rychle rozvíjejí, ale jejich škálování je stále nákladnější a náročnější na zdroje. Problémem je obrovské množství nastavitelných parametrů, které modely potřebují k učení a generování textu.
Velké jazykové modely (LLM), které pohánějí chatboty jako ChatGPT, se rychle rozvíjejí, ale jejich škálování je stále nákladnější a náročnější na zdroje. Problémem je obrovské množství nastavitelných parametrů, které modely potřebují k učení a generování textu. Každý parametr vyžaduje fyzickou paměť, a s růstem modelů – například GPT-5.5 se odhaduje na biliony parametrů – rostou i nároky na paměť, což je obtížné a drahé spravovat.
Tým vedený Borjou Aizpuruou ze společnosti Multiverse Computing v San Sebastiánu ve Španělsku našel způsob, jak zlepšit výkon LLM pomocí kvantových počítačů. Namísto přidávání obrovského množství nových klasických parametrů vložili malé bloky kvantových obvodů do vnitřního fungování předem trénovaného LLM. Tyto kvantové bloky dokáží kódovat složité matematické vztahy ve vysoce kompaktní formě, což by jinak vyžadovalo mnohem více konvenčních parametrů. Výsledkem je hybridní systém, kde původní LLM běží na standardním počítači a kvantové komponenty jsou prováděny na 156qubitovém supravodivém kvantovém procesoru IBM.
Při aplikaci tohoto přístupu na model Llama 3.1 8B (s osmi miliardami parametrů) dosáhli vědci snížení perplexity (klíčové měřítko spolehlivosti modelu při předpovídání dalšího slova v sekvenci) o 1,4 %, přičemž přidali pouhých 6 000 dodatečných parametrů. To představuje nárůst o méně než jednu desetitisícinu procenta. Testování na menším modelu SmolLM2 (135 milionů parametrů) ukázalo, že výkon se konzistentně zlepšoval s rostoucí velikostí kvantových komponent a kvantově vylepšený model dokázal správně odpovědět na otázky, které dvě čistě klasické verze stejného modelu zodpověděly špatně.
Ačkoli jsou současné výkonnostní zisky skromné a omezené možnostmi stávajícího kvantového hardwaru, výsledky jsou slibné, neboť demonstrují, že kvantové vylepšení může fungovat na reálném a široce používaném modelu. S tím, jak se kvantové procesory budou stávat výkonnějšími a spolehlivějšími, se očekává, že se zlepšení budou úměrně škálovat. To by mohlo otevřít zásadně novou cestu pro vývoj schopnější umělé inteligence bez nekontrolovatelných infrastrukturních nákladů, které hrozí definovat budoucnost tohoto oboru.
Phys.org