AI odhalila skryté vzorce: 22 jazyků se vyvíjí podle stejných pravidel jako příroda
InovaceVědci z Fudan, Harvardu a Stony Brook University nedávno prozkoumali vývoj 22 jazyků a odhalili, že se řídí univerzálními vzorci, které připomínají biologickou evoluci.
Vědci z Fudan, Harvardu a Stony Brook University nedávno prozkoumali vývoj 22 jazyků a odhalili, že se řídí univerzálními vzorci, které připomínají biologickou evoluci. Jejich práce, publikovaná v Proceedings of the Royal Society B Biological Sciences, identifikuje společnou statistickou strukturu a mechanismy, které stojí za vývojem slovní zásoby napříč všemi zkoumanými jazyky.
Studie využila kombinaci nástrojů umělé inteligence (AI), konkrétně metod zpracování přirozeného jazyka (NLP) a takzvaných „word embeddings“. Tyto numerické reprezentace slov umožňují mapovat jejich význam v mnohorozměrném sémantickém prostoru, kde si slova s podobným významem odpovídají blízkými body. Spojením těchto moderních technik s rozsáhlými lingvistickými daty sahajícími až do středověku a metodami prostorové statistiky, které jsou běžné v geografii a environmentálních vědách, se podařilo odhalit hluboké kulturní souvislosti, které platí pro mnoho lidských jazyků napříč historií.
Mezi klíčové objevy patří zjištění, že populární slova se ve všech analyzovaných jazycích systematicky shlukují s jinými populárními slovy, čímž vytvářejí „populární“ oblasti vysokofrekvenčních slov. Dále vědci pozorovali společné profily pro rychlost shlukování slov, což znamená, že slovní zásoba je organizována v hierarchickém vzoru, jehož struktura je do značné míry stejná napříč všemi jazyky. Zajímavé je také zjištění, že nová slova se obecně tvoří v „záblescích“ společně s dalšími nedávnými slovy v jejich okolí, což připomíná rychlá období významných genetických nebo morfologických změn v biologické evoluci.
Výzkum také ukázal, že pro slovní zásobu platí takzvaný Taylorův zákon, matematický vztah typu mocninného zákona, který původně popisoval ekologická společenství a později byl identifikován v dalších biologických vzorcích a fyzikálních datech. V tomto kontextu propojuje průměr a rozptyl počtu slov seřazených podle jejich sémantického významu a historického výskytu, což umožňuje současně chápat sémantiku a evoluci jazyka. Tento objev poskytuje cenný vhled do toho, jak se lidské společnosti a kultury transformovaly v průběhu času, a otevírá nové možnosti pro studium komplexnosti lidské řeči.
Phys.org