Nová AI rozluští DNA a rekonstruuje rodokmen za minuty, pomůže pochopit evoluci nemocí
InovaceVědci z Oregonské univerzity vyvinuli nástroj umělé inteligence, který dokáže číst genetický kód podobně, jako velké jazykové modely interpretují text.
Vědci z Oregonské univerzity vyvinuli nástroj umělé inteligence, který dokáže číst genetický kód podobně, jako velké jazykové modely interpretují text. Tento počítačový model, skenující genom pro biologické mutační vzorce, sleduje páry genů zpět v čase k jejich poslednímu společnému předkovi.
Jedná se o první jazykový model navržený pro populační genetiku, uvedl Andrew Kern, počítačový biolog z UO College of Arts and Sciences. Nástroj AI, popsaný v článku publikovaném 10. dubna v _Proceedings of the National Academy of Sciences_, nabízí vědcům rychlou a flexibilní alternativu ke klasickým metodám rekonstrukce evoluční historie. V praxi může pomoci výzkumníkům, jako je Kern, pochopit, kdy se v populaci objevily geny odolné vůči chorobám, nebo kdy se u druhů vyvinuly klíčové vlastnosti. Kern zdůrazňuje, že pokroky v generativní AI a její architektury jsou potenciálně užitečné pro řadu oborů mimo chatboty, a jeho tým využívá silné stránky světa AI v dosud nevyužitém kontextu.
Genomy jsou často přirovnávány k psanému jazyku, kde kombinace čtyřpísmenné abecedy DNA – A, T, C a G – tvoří základ genů a chromozomů. Tým se zaměřuje na „překlepy“, které vědci nazývají mutace: změny v sekvencích DNA, jako jsou vyměněná nebo chybějící písmena, které se hromadí v průběhu času jako součást evoluce. Mutace, často neškodné, se mohou předávat z generace na generaci a zanechávat stopy pro sledování příbuzenských vztahů.
Tradiční metody založené na matematice a statistice jsou sice zlatým standardem pro překlad mutací do rodokmenu, ale mohou být pomalé a mít potíže s velkými nebo neúplnými genomickými datovými soubory, vysvětlil Kevin Korfmann, hlavní autor studie. Vědci se proto obrátili na AI, aby efektivně interpretovala jazyk života, a to úpravou modelu GPT-2, starší architektury strojového učení, která stojí za ChatGPT. Jazykový model nebyl trénován na velkých objemech anglického textu, ale na simulacích genetické evoluce napříč různými druhy – včetně bakterií, hlodavců, komárů a primátů – aby se naučil rozpoznávat mutační vzorce. Tyto simulace napodobují evoluční procesy a jejich výsledky slouží jako tréninková data pro modely hlubokého učení.
Úseky DNA s mnoha mutacemi pravděpodobně pocházejí od vzdáleného společného předka, zatímco ty s několika mutacemi pravděpodobně sdílejí novějšího předka. Na základě těchto mutačních vzorců a dalších biologických principů dokáže model AI předpovědět, kdy páry genů naposledy sdílely společného předka, což je známé jako „doba koalescence“. Při testech nástroj fungoval stejně dobře jako nejmodernější statistické metody, což výzkumný tým překvapilo. Kern poznamenal, že nikdy nevíte, co bude fungovat, když si v podstatě vypůjčujete techniky z úplně jiného světa a aplikujete je na nový problém, ale v tomto případě to fungovalo opravdu dobře.