Fascinující objev: Jak dendrity neuronů v mozku řídí učení pomocí vektorových signálů

Učení je výsledkem změn v síle synaptických spojení mezi neurony. Tyto synaptické modifikace mohou mít obtížně předvídatelné účinky na výstup sítě, zejména ve složitých hierarchických sítích, jako je mozek. Výzva určit, jak by měly být jednotlivé synapse změněny pro zlepšení výkonu úkolu, je známá jako problém přiřazení zásluh.

Zatímco tento problém je efektivně řešen v umělých neuronových sítích (ANN) algoritmem zpětné propagace chyby, zůstává neznámé, jak je přiřazení zásluh řešeno v mozku. Nedávná teoretická práce navrhla několik modelů, kterými by biologické obvody mohly řešit přiřazení zásluh, včetně cíleného učení a algoritmů podobných zpětné propagaci. Klíčem k umělým i biologicky inspirovaným řešením přiřazení zásluh je vektorizace instruktivních signálů, na rozdíl od vysílání jediného skalárního učebního signálu. Efektivní učení vyžaduje, kromě vektorizace, aby byly instruktivní signály oddělitelné od dopředných vstupů, aby se zabránilo interferenci. V ANN je toho dosaženo časovým oddělením, což bylo dlouho považováno za biologicky nepravděpodobné. Jedna hypotéza je, že v kůře je informace související s přiřazením zásluh prostorově, nikoli časově, segregována v apikálních dendritech pyramidových neuronů. To je v souladu s anatomickými a obvodovými důkazy, že dopředné vstupy jsou přijímány perisomaticky a zpětnovazebné vstupy jsou přijímány v distálních dendritech. Nicméně přímé důkazy týkající se subcelulárních mechanismů přiřazení zásluh chybí.

Vektorizované učební signály na dendritické úrovni by měly splňovat čtyři experimentálně testovatelné podmínky. Zaprvé, dendritická aktivita by měla obsahovat informace, které nejsou přítomny pouze v somatické aktivitě (ačkoli somata by teoreticky mohla přenášet gradienty pomocí kvalitativně odlišných vzorců spikingu, kabelové vlastnosti dendritů předpovídají určitou úroveň nezávislosti mezi somatickou a dendritickou aktivitou). Zadruhé, dendritická aktivita by měla kódovat informace o výkonu úkolu, které by mohly sloužit jako instruktivní signály, jako jsou reprezentace odměny a chyby. Zatřetí, dendritická aktivita by měla odrážet příspěvek daného neuronu k výkonu úkolu (tj. funkci odměny). Začtvrté, narušení vektorizovaných instruktivních dendritických signálů by mělo zhoršit učení.

Specifikace funkce odměny pomocí BCI úkolu

Vyhodnocení přiřazení zásluh v biologických neuronových sítích se dosud ukázalo jako nemožné. Učební signály lze definovat pouze relativně k funkci odměny, která mapuje neuronovou aktivitu na výkon úkolu. Není jasné, zda jsou takové funkce explicitně reprezentovány v mozku. I kdyby byly, experimentátoři neznají jejich specifické formulace z hlediska neuronové aktivity. Úkoly neurofeedbackového rozhraní mozek-počítač (BCI) představují potenciální řešení tohoto problému přímým propojením neuronové aktivity s výkonem úkolu, čímž umožňují experimentátorovi specifikovat funkci odměny, která má být optimalizována. Předchozí studie ukázaly, že myši jsou schopny se učit BCI úkoly pomocí různých zpětnovazebných stimulů a mozkových oblastí a že učení vyvolává změny v aktivitě neuronů řídících BCI, včetně hippocampu a různých senzorických a motorických kůr.

Zde jsme využili vizuálně řízený neurofeedbackový BCI úkol v kortikálních pyramidových neuronech k testování subcelulárních mechanismů pro signalizaci související s chybami a odměnami. Trénovali jsme myši s fixovanou hlavou pod dvoufotónovým mikroskopem, aby ovládaly aktivitu dvou prostorově promíchaných sad pyramidových neuronů vrstvy 5 označených GCaMP7f v retrospleniální kůře (RSC), označených P+ a P−. Rozdíl v průměrné somatické aktivitě GCaMP neuronů P+ oproti P− byl spojen s rotací vizuální mřížky vzhledem k odměněnému cílovému úhlu. RSC jsme vybrali kvůli optické dostupnosti vrstvy 5 a předchozí demonstraci nezávislých dendritických událostí v této oblasti. Zaznamenávali jsme aktivitu GCaMP při 15 Hz v proximálním kmeni dendritu jako zástupce somatické aktivity; to umožnilo zobrazování mnoha neuronů a zároveň snížilo kontaminaci signálu díky přesnější prostorové stopě a rychlejší kinetice signálu apikálního kmene. Výkon úkolu jsme měřili dvěma metrikami: přesností, která představovala podíl odměněných pokusů; a rychlostí, která představovala počet získaných odměn za minutu. Myši (n = 6) se úkol naučily podle obou metrik.

Obr. 1: Myši se učí neurofeedback BCI úkol prostřednictvím diferenciální regulace P+ a P− neuronů.

**a**, Schéma nastavení BCI. Myši měly fixovanou hlavu a byly zobrazovány pod dvoufotónovým (2P) mikroskopem a mohly volně běhat na válcovém běžeckém pásu. Dvě uživatelem definované populace pyramidových neuronů vrstvy 5 (L5) v RSC označených GCaMP7f byly zobrazovány v proximálním apikálním kmeni: P+ (červené) a P− (modré) byly vybrány k ovládání rotace Gaborova pole. Neurony P0 byly označeny jako všechny ostatní neurony v zorném poli. Jednotlivé snímky byly online registrovány (korekce pohybu). Aktivita v neuronech P+ otáčela pole ve směru hodinových ručiček, k cílovému úhlu 90°. Aktivita v neuronech P− otáčela Gaborův stimul proti směru hodinových ručiček, k úhlu 0°.

**b**, Schéma mapování mezi aktivitou P+ a P−, úhlem stimulu, cílovou aktivitou a chybou. Chyba byla vzdálenost mezi aktuální a cílovou aktivací. Úhel představuje binned (7 binů, 15° od sebe, od 0° do 90°) lineární mapování mezi průměrnou aktivitou v neuronech P+ minus aktivitou v neuronech P−.

**c**, Struktura pokusu: myši měly 28 s na dosažení cílové aktivity a obdržení odměny, dodané o 1 s později. V úspěšných pokusech bylo 90° Gaborovo pole zobrazeno po dobu 2 s, následované 1 s prezentace černé obrazovky. V neúspěšných pokusech byla před začátkem dalšího pokusu prezentována 3 s černá obrazovka.

**d**, Stopy ΔF/F0 zaznamenané živě pro neurony P+ (červené) a P− (modré). Svislé přerušované čáry a trojúhelníky představují časové body, kdy myš dosáhla cílové aktivity.