Nov pristop OpenAI za učenje posnemanja z enim strelom, pokuk v prihodnost AI

Učenje imitacije z enim strelom Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Raziskovalci OpenAI so 16. maja delili videoposnetek enega svojih projektov, skupaj z dvema dokumentoma pomembnih raziskav rešitev treh ključnih ozkih grl trenutnega razvoja AI: meta-učenja, učenja z enim strelom in samodejnega pridobivanja podatkov. V svoji prejšnji objavi sem obljubil članek, posvečen fascinantnemu problemu učenja z enim strelom, tako da tukaj gre. Najprej lahko pogledate videoposnetek, ki so ga objavili in razloži njihovo neverjetno delo:

V tem videu vidite fizičnega robota z eno roko, ki zloži kocke drug na drugega. Če poznamo zapletene naloge, ki jih industrijski roboti trenutno lahko opravljajo, če raziskovalec ne bi poskušal razložiti, kaj se dogaja, bi bilo to v mnogih pogledih zelo slabo. V nadzorovanem okolju je naloga preprosta, postopkovni (trdo kodirani) pristopi so te težave že rešili, kar je obetavno in revolucionarno, koliko splošni okvir pod njim lahko obsega do več, bolj zapletenih in prilagodljivih vedenj v hrupnejših okoljih.

Velika razlika med človekom in višjimi živalmi je vsekakor velika in ne prijazna.
- Charles Darwin

Po analogiji je ta članek močan dokaz, da bodo razlike v kognitivnih sistemih med trenutno utelešenim AI (umetna inteligenca fizičnih sistemov) in roboti 22. stoletja edine po obsegu in ne takšne. Od leta 2012 ImageNet-jeva konkurenca * se krepijo raziskave poglobljenega učenja, ne toliko za spreminjanje narave porazdeljenih izračunov, ki jih opravi nevronska mreža, temveč iskanje novih načinov za strukturiranje omrežij, da bi se naučili določene naloge. Ker je funkcija nevronske mreže struktura, ta struktura ni trdo kodirana (ni ročno zasnovana), vendar so rezultati atomskih računskih enot, ki so bile prvotno povezane med vhodi in izhodi, sposobne spremeniti svojo strukturo in povezave. Specifične funkcije se nauči s spreminjanjem celotne strukture omrežja.

V tem članku so zgradili splošni okvir, s katerim lahko usposobijo agenta za upodabljanje nalog na abstrakten način in se naučijo, da to znanje prenesejo na nove nevidljive naloge (prenos učenja) po samo enem prikazu nove naloge (en posnetek imitacije učenja).

Naloge

Čeprav se natančna arhitekturna izvedba razlikuje, vzameta dve nalogi kot primere za prikaz uspešnosti splošnega pristopa.

Doseganje delcev

V prvem primeru sistem prejme vhode barvnih ciljnih položajev na ravnini in en sam video demonstracijo simuliranega sredstva, ki gre do določenega cilja.

Slika 2. Robot je točkovna masa, ki se nadzira z dvodimenzionalno silo. Družina nalog je doseči ciljno mejo. Identiteta mejnika se razlikuje od naloge do naloge in model mora na podlagi predstavitve ugotoviti, katere cilje je treba zasledovati. (levo) ilustracija robota; (sredina) naloga je doseči oranžno polje, (desno) naloga je doseči zeleni trikotnik.

Med usposabljanjem mora sistem reproducirati isto nalogo (doseči oranžno), vendar iz druge konfiguracije, z različnimi začetnimi položaji za robota in tarče. Ni jasno, ali se med testiranjem agent preizkuša na nalogi, za katero je bil usposobljen (doseže oranžno) ali na nalogi, ki je še nikoli ni videl (na primer doseže zeleno) ali obojih.

Usposobljeni pravilnik je ovrednoten po novih scenarijih in pogojen z novimi demonstracijskimi usmeritvami, ki niso vidne med usposabljanjem.

Gotovo je, da mora agent iz ciljne cilje izvesti edinstveno demonstracijo in znova začeti z drugo konfiguracijo. To pomeni, da natančnega motornega zaporedja ni bilo mogoče izvedeti pred preskušanjem in je treba sklepati na podlagi abstrakcije (strukturirane predstavitve višjega nivoja) naloge in motoričnega načrtovanja.

Zlaganje blokov

V drugem primeru se mora agent naučiti zlagati kocke (identificirane z različnimi barvami) v enakem vrstnem redu, kot je prikazan v eni simulirani demonstraciji. Ta simulirana demonstracija je serija 2D slik, ki jih ustvari 3D fizikalni motor, v katerem se modelirajo lastnosti motornih in senzorskih aparatov robotov.

Politika z enim strelom. Enotna politika, usposobljena za reševanje številnih nalog. Glavna naloga: {abc, def}, spodnja naloga: {ab, cd, ef}

V obeh primerih so začetni položaji kock v demonstracijskem in v resničnem testu različni, vsaka naloga pa se začne iz drugega začetnega položaja. Robot ne poskuša nadomestiti kock, da bi se ujemali z začetnim položajem demonstracije, prenese nalogo višje stopnje, da kocko zbere ne glede na stanje, v katerem se začne.

Usposabljanje z uporabo randomizacije domen

V obeh primerih so vse slike, uporabljene med usposabljanjem, pridobljene s simulacijo z uporabo randomizacije domen, v kateri bodo naključno razvrstili naslednje vidike vzorcev:

Število in oblika motečih predmetov na mizi Položaj in tekstura vseh predmetov na mizi Teksture mize, tal, skybox-a in robota Položaj, orientacija in vidno polje kamere Število luči v prizoru Položaj, orientacija, in spekularne lastnosti luči Vrsta in količina naključnega hrupa, dodanega slikam

Vadbeni set za doseganje delcev

Menimo, da je vse težji nabor družin opravil, kjer se število orientacijskih točk poveča z 2 na 10. Za vsako družino opravil zberemo 10000 usmeritev za usposabljanje, kjer so položaji mejnikov in začetni položaj točkovnega robota naključno razporejeni. Za učinkovito ustvarjanje demonstracij uporabljamo trdo kodirano ekspertno politiko. Načrtom dodajamo hrup tako, da vznemirjamo izračunana dejanja, preden jih uporabimo v okolju, za usposabljanje politike nevronske mreže pa uporabimo preprosto vedenjsko kloniranje

Vadbeni komplet za zlaganje blokov

Konkretno zbiramo 140 vadbenih nalog in 43 testnih nalog, od katerih ima vsaka drugačno želeno postavitev blokov. Število blokov v posamezni nalogi se lahko spreminja med 2 in 10. Za usposabljanje zberemo 1000 usmeritev na posamezno nalogo in vzdržujemo ločen niz smernic in začetne konfiguracije, ki se uporabljajo za ocenjevanje. Podobno kot pri nalogi delcev vbrizgamo hrup v postopek zbiranja trajektorjev. Načrti se zbirajo s trdo kodiranim pravilnikom.

Uspešne demonstracije se zbirajo s trdo kodiranim pravilnikom

Upoštevajte, da se med učenjem pravilnih usmeritev generira postopkovna "trdo kodirana" politika, za katero verjamem, da se opira na klasične tehnike prepoznavanja in nadzora sistema. Torej med usposabljanjem in testiranjem ima agent dva vhoda: a) demonstracijo v konfiguraciji A in b) začetno konfiguracijo B. Med samo vadbo ima algoritem za učenje tudi dostop do idealnega odziva: trajektorija, ki se začne iz konfiguracije B, ki odgovori na težavo in s katerim se bo primerjal odziv agenta med učenjem, zaradi česar je učni problem pod nadzorom.

Za vsako vadbeno nalogo predvidevamo razpoložljivost niza uspešnih demonstracij.

Če ni jasno, bom v naslednjem razdelku prešel razlike med različnimi vrstami učnih paradigem.

Optimizacijski algoritem in funkcija izgube

Nadzorovano učenje se nanaša na paradigme usposabljanja, pri katerih ima mreža pri vsaki odločitvi dostop do pravilne izbire, ki bi jo moral sprejeti, in s tem do pojma napake. Na primer pri klasifikaciji psov in mačk je nalepka slik psov in mačk med treningom znana vnaprej in napake se takoj odkrijejo. V tem smislu je drugačno od nenadzorovanega učenja, kjer na splošno od agenta zahtevajo, da v vhodih, ki jih prejme, najde predhodno neznano strukturo, brez oznak mačk in psov pa bi morali odkriti, da obstajata dve skupini različnih predmetov, ki temeljijo samo na informacije, vsebovane v podatkih. Prav tako se od učenja ojačitve razlikuje po tem, da se pogosto uporabljajo za sistem v realnem času, v katerem natančno zaporedje odločitve, ki vodi do cilja, ni znano, le končna "nagrada" pa bo odločala, ali je bilo zaporedje pravilno. Z imitacijskim učenjem klasični učilni problem okrepitve pretvorijo v nadzorovan učni problem, pri katerem se napaka izračuna od razdalje do opazovane usmeritve.

Kot velja za vsako nadzorovano vadbo, je tudi naloga, ki jo obravnavamo, popolnoma definirana s funkcijo izgube, katere cilj je količinsko določiti, kako daleč je bil agent od načrtovanega vedenja. Določitev te funkcije je pogosto ključni korak, saj določa, kako algoritmi za optimizacijo posodabljajo parametre modela. Ti algoritmi so pomembni za čas računanja in pogosto zahtevajo nekaj nastavitve, da se sploh lahko zbližajo. Dejansko rešitve, ki bodo funkcijo v zelo visoki dimenziji zmanjšale, so v zelo majhni lupini prostora parametrov, z majhno razdaljo med udarci, ko se oddaljite od te majhne domene, razdalja med rešitvami hitro naraste. Na to temo je med drugim opravila zelo neverjetna Jennifer Chayes, ki jo obravnava v zelo zanimivem intervjuju v zadnji epizodi Talking Machines.

Med usposabljanjem političnih mrež (celotna mreža, ki se lahko sam odloči, katere ukrepe bo izvedla) najprej obdelajo uspešno demonstracijsko usmeritev. V tem delu bodo primerjali dva pristopa, klasično vedenjsko kloniranje (ni ravno prepričan o uporabi, ki sta ga uporabila) in algoritme DAGGER. To bo nato omogočilo iterativno zmanjšanje izgubne funkcije bodisi prek l2 bodisi navzkrižne entropije, ki temelji na tem, ali so dejanja neprekinjena ali diskretna (na podlagi porazdelitve dogodkov v zaporedju). V vseh poskusih so algoritem Adamax izvedli optimizacijo s stopnjo učenja 0,001.

Velikost korakov se začne majhno in razpada eksponentno.

Algoritem sam po sebi ne omogoča prenosa, način prenosa pa bo sestavil vadbeni set in funkcijo izgube.

V nalogah obstajata dve vrsti prenosa. Prva vrsta se imenuje "premoščanje vrzeli v resničnosti", to je posploševanje učenja, ki omogoča prenos med treningom na simuliranih vhodih na testiranje naravnih dražljajev. Simulacijski podatki so pogosto osiromašeni približki resničnega sveta, preveč popolni, da nimajo zapletenosti resničnega predmeta. V resničnem svetu je kamera morda pokvarjena in hrupna, nadzor motorja bo manj natančen, barve se bodo spremenile, teksture bodo bogatejše itd. Za prvi prenos lahko uporabijo metodo, ki jo imenujejo "domena naključja" : omrežje se lahko z dodajanjem hrupa nauči skupne ustrezne strukture, ki mu bo omogočila ustrezno posplošitev v resničnem svetu. Tako bodo na primer spremenili kot kamere med primere treningov, spremenili teksturo ali naredili proge manj popolne. Z dodajanjem hrupa med treningom dodamo robustnost.

Drugi preizkus, ki smo ga preizkusili tukaj, je sposobnost izdelave ustreznega motornega zaporedja v prej nevidnem nizu konfiguracije in cilja, ki temelji na enem samem demonstraciji, ki se začne v drugi začetni konfiguraciji, vendar s podobnim končnim ciljem. Tudi tukaj bo prenos omogočen s tem, kako sestavimo vadbeni set in modeliramo funkcijo izgube. S predstavitvijo demonstracij med usposabljanjem, ki se ne začnejo iz istega začetnega pogoja, da bi dosegli podoben cilj, omogočite mreži, da se nauči vgraditi višjo raven predstavitve cilja brez uporabe absolutnih pozicij, pa tudi predstavitve višjega reda motorično zaporedje, ki ni preprosta imitacija. Naivna začetna arhitektura omogoča usposabljanje za spreminjanje strukture na ustrezen način, ta usposobljena struktura pa pomeni končno funkcijo.

Cilji

Za paradigmo zlaganja blokov so imeli več omejitev, ki so jih želeli izpolniti njihovi učni agenti.

Uporabljati ga je treba za primere nalog, ki imajo različno število blokov.
Seveda je treba posplošiti na različne permutacije iste naloge. Na primer, politika bi morala biti uspešna pri nalogi {dcba}, tudi če je usposobljena samo za nalogo {abcd}.
Vsebovati naj bi demonstracije različnih dolžin.

Imeli so več vprašanj, na katera so želeli odgovoriti za to nalogo.

Kako se usposabljanje z vedenjskim kloniranjem primerja z DAGGER, glede na to, da je mogoče zbrati dovolj podatkov brez povezave?
Kako se kondicioniranje na celotni demonstraciji primerja s kondicioniranjem končne želene konfiguracije, tudi če ima končna konfiguracija dovolj informacij, da lahko nalogo v celoti določi?
Kako se kondicioniranje na celotni demonstraciji primerja s kondicioniranjem na "posnetku" poti, ki je majhna podmnožica okvirjev, ki so najbolj informativni
Ali lahko naš okvir uspešno posplošimo na vrste nalog, ki jih med usposabljanjem še nikoli ni videl? (++)
Kakšne so trenutne omejitve metode?

Arhitektura

Doseganje delcev

Za prvi primer so primerjali tri arhitekture, ki temeljijo na nevronskih mrežah s kratkoročnim spominom (LSTM). Opis mreže bo predstavljen v prihodnji objavi o spominu in pozornosti, ki sta tako kognitivni kot računski znanosti popolnoma zanimivi. V bistvu LSTM napaja prejšnje omrežne izhode (časovno) kot del vhoda omrežja ob vsaki novi časovni točki, kar omogoča, da informacije o preteklih stanjih obveščajo sedanjost (od tod tudi njihovo ime kratkoročnih spominskih omrežij). So koren številnih najsodobnejših tehnologij, ki se ukvarjajo s časovnimi vrstami (Alexa, Siri itd.).

Tu uporabljajo te tri posebne pogoje:

  1. Navadni LSTM: nauči se vdelati pot in trenutno stanje, da ga napaja v večplastni perceptron, ki bo povzročil motorično delovanje
  2. LSTM s pozornostjo: izdelajte tehtano predstavitev nad mejniki poti
  3. Končno stanje s pozornostjo: pri vadbi uporabite samo končno stanje, da ustvarite ponderiranje nad mejniki, podobno kot prejšnja arhitektura

Zlaganje blokov

Čeprav bi se generična nevronska mreža načeloma lahko naučila preslikave od demonstracije in trenutnega opazovanja do ustreznih ukrepov, smo ugotovili, da je pomembno uporabiti ustrezno arhitekturo. Najpomembnejši prispevek tega prispevka je naša arhitektura za učenje zlaganja blokov in verjamemo, da je reprezentativna za to, kako bi lahko izgledale arhitekture za posnemanje učenja s kompleksnejšimi nalogami v prihodnosti.

Pozorni moduli

Članek ostaja razmeroma visok nivo pri opisu strukture omrežij, ki se uporabljajo za učenje naloge. Ključna sestavina arhitekture je njihov modul pozornosti, vendar verjamem, da ta tema potrebuje podroben opis podrobnosti o njeni bistveni vlogi. Po analogiji s konceptom trajne pozornosti kognitivne znanosti se moduli pozornosti uporabljajo in hranijo in osredotočajo na ustrezne informacije, ki jih vsebujejo različni razponi prostora in časa. Proizvaja fiksno velikost, ki vsebuje vdelano informacijsko vsebino, ki je bila raztegnjena v času in prostoru. Po analogiji s topologijo, vejo matematike, za katero verjamem, da bo v veliki meri pokazala, kako razumemo porazdeljene predstavitve v prihodnosti, mreža pozornosti izvaja topološki izomorfizem informacij, enaka ukrivljenost, drugačna oblika. Upoštevajte, da ta omrežja nimajo vloge detektorja strnosti, ki bi se lahko osredotočil na nepričakovane ali redke dogodke, kar je funkcija, povezana s pojmom pozornosti v nevroznanosti.

Tu uporabljajo dve vrsti pozornega omrežja: a) časovno omrežje pozornosti, ki ustvari tehtano vsoto nad vsebino (poizvedbe, kontekstni in pomnilniški vektorji), shranjeno v pomnilniku, in b) omrežje pozornosti, ki je sposobno obnoviti podatke glede na blok pozicije, odvisno od trenutne poizvedbe agenta.

Mreža časovne pozornosti, s c: kontekstni vektor, m: vektor pomnilnika, q: poizvedovalni vektor, v: učena teža vektorja. Izhod je iste velikosti kot pomnilniški vektor. Gre za linearno kombinacijo tistih vektorjev, ki nekaterim pomnilnikom omogoča večji vpliv na izhod, ki temelji na kontekstu in vektorjih poizvedb.Ista ideja tukaj konkurenco med prostorskimi informacijami dinamično vzdržuje sistem pozornosti.

Mreža politik

Celotna mreža je sestavljena iz treh različnih podomrežij: predstavitvena mreža, kontekstna mreža in manipulacijska mreža.

Predstavitvena mreža prejme predstavitveno usmeritev kot vložek in ustvari vdelavo demonstracije, ki jo uporabi politika. Velikost te vgradnje raste linearno, odvisno od dolžine demonstracije in števila blokov v okolju.

Kot je prikazano tukaj, lahko demonstracijska mreža demonstracije različnih zahtevnosti in velikosti vključi v skupni format, ki ga bo kontekstna mreža uporabila za predstavljanje naloge. Verjetno je na tej ravni že prišlo do posploševanja, demonstracijski vdelavi naj bi puščali podatke o natančni poti in absolutnih položajih kock, ki so jih videli med demonstracijami.

Čeprav gledamo na strukturo kontekstne mreže, čeprav z zelo visoke ravni, vidimo vmesnik s predstavitveno mrežo, ki napaja vgradnjo demonstracije v osrednje časovne module pozornosti. Prav tako vidimo, da se prejšnja dejanja (LSTM) in trenutno stanje napajajo kot vložek, povezan z demonstracijskim vdelavo, da se ustvari globalni kontekstni vdelava, poslana v motorno omrežje.

Njihov opis delovanja omrežij je po mojem mnenju najpomembnejši del prispevka:

Kontekstna mreža se začne z izračunom vektorja poizvedbe kot funkcije trenutnega stanja, ki se nato uporablja za udeležbo v različnih časovnih korakih demonstracijskega vdelave. Uteži pozornosti na različnih blokih v istem časovnem koraku so sešteti, da dobimo enotno težo na časovni korak. Rezultat te časovne pozornosti je vektor, katerega velikost je sorazmerna s številom blokov v okolju. Nato uporabimo pozornost okolice za širjenje informacij po vdelavah vsakega bloka. Ta postopek se ponovi večkrat, pri čemer se stanje napreduje z uporabo celice LSTM z nevezanimi utežmi.
Prejšnje zaporedje operacij ustvari vdelavo, katere velikost ni odvisna od dolžine demonstracije, vendar je še vedno odvisna od števila blokov. Nato uporabimo standardno mehko pozornost za izdelavo vektorjev z določenimi dimenzijami, kjer je pomnilniška vsebina sestavljena samo iz položajev vsakega bloka, ki skupaj s stanjem robota tvori vhod, ki je bil poslan v manipulacijsko omrežje.
Čeprav se število predmetov v okolju lahko intuitivno razlikuje, je število ustreznih predmetov na vsaki stopnji manipulacije majhno in je običajno fiksno. Zlasti v okolju zlaganja blokov mora biti robot pozoren le na položaj bloka, ki ga poskuša pobrati (izvorni blok), kot tudi na položaj bloka, ki ga poskuša postaviti na vrhu ( ciljni blok). Zato se lahko pravilno usposobljena mreža nauči uskladiti trenutno stanje z ustrezno fazo v demonstraciji in sklepati o identitetah izvornih in ciljnih blokov, izraženih kot mehke uteži pozornosti v različnih blokih, ki se nato uporabijo za pridobivanje ustreznih položajev v se prenese v manipulacijsko mrežo.

Način, kako dokončajo svoj opis, je odličen primer trenutnega nihanja raziskav AI od strokovnega sistemskega pristopa do pristopa k učnemu sistemu in namiguje tudi na razpravo o tem, kako so se možgani razvijali spodaj.

Čeprav te interpretacije ne uveljavljamo pri usposabljanju, naša eksperimentalna analiza podpira to interpretacijo notranjega delovanja naučene politike.

Ne vedo, kako to deluje! Zgradijo strukturo, ki lahko izvede določene izračune in shrani določene informacije, za katere menimo, da so a priori uporabne, in jo hranijo z vadbenim setom v upanju, da se bo celotna struktura naučila! Obstaja neke vrste voodoo raziskovanja umetne inteligence, umetnost, način, kako hevristično iskanje usmeriti v pravo smer. In zdi se, da ogromno teh čarovnikov zdaj dela za openAI.

Po njihovih besedah ​​je manipulacijska mreža najpreprostejša struktura, od vdelave v kontekst, dovajanega do večplastnega perceptrona, nastane motorično delovanje.

Rezultati

Rezultati so pogosto del, za katerega sem malo zainteresiran, zlasti za takšne neverjetno briljantne tehnične dokumente. Hitro bom šel, ker je ta pristop učinkovit, deluje natančno kot trdo kodirana strokovna politika in je v nasprotju s tem specifičnim postopkovnim pristopom posplošljiv za veliko različnih nalog.

Doseganje delcev

Zlaganje blokov

V teh poskusih so preizkusili tudi različne pogoje. S pomočjo DAGGER-ja so primerjali tri različne vhodne razmere, tako da so razčlenili prikazano pot: popolno usmerjanje, posnetek poti ali samo uporabo končnega stanja. Primerjali so tudi algoritem vedenjskega kloniranja s polno usmeritvijo demonstracije.

Močan dokaz sposobnosti sistema za posploševanje identitete kock

Diskusija

Ko berem napredek v hitrem tempu, ki ga je OpenAI dosegel v preteklih mesecih, čutim čedalje večjo potrebo po pogovoru o svojem delu in delim svoja razmišljanja o tem, kar verjamem v njihovo delo, ter o napredku področja AI kot celote in povemo naše razumevanje, kako biološki možgani delujejo. Zlasti ta naraščajoča ideja, da na videz skupne kognitivne funkcije med človeškimi bitji niso toliko posledica skupne strukture, ki notranje pozna, kako izvajati nalogo, temveč je posledica relativno podobnih naivnih struktur, ki se soočajo z istim okoljem, naučite se izvajati podobne naloge. Funkcija je rezultat brezhibne strukture, ki se je sposobna naučiti samo določene naloge zaradi specifičnega okolja, ne pa strukture, ki lahko nalogo opravi po domače in preprosto prilagodi par parametrov, da se prilagodi okolju.

Naloge in konfiguracije: na videz poljubna definicija

Priznati moram, da ne razumem, zakaj so se odločili govoriti o različnih nalogah tako kot oni. Naloga je v poskusu zlaganja blokov definirana kot niz nizov, ki predstavljajo položaj blokov med seboj, število elementov v naboru določa število nizov in število znakov, koliko blokov je treba urediti . Naloga je nato razporeditev blokov v svežnjah ne glede na absolutni položaj sklada.

Nekateri bloki so morda na mizi, vendar niso del naloge

Njihova izbira za določitev relativnega položaja in števila skladov kot meril za ločeno nalogo se zdi poljubna. Dejansko bi lahko bilo smiselno govoriti tudi o različnih nalogah na podlagi absolutnih začetnih položajev blokov (kar imenujejo konfiguracija). Verjamem, da jim je skupna težava očitna, vendar se zaradi jasnosti raje ne spuščajo v podrobnosti. Bolj smiselno je učenje politik opredeliti kot dve vrsti posploševanja, kot to počnejo pozneje:

Upoštevajte, da se posplošitev ocenjuje na več ravneh: naučena politika ne samo da mora posploševati nove konfiguracije in nove demonstracije že vidnih nalog, ampak tudi posplošiti na nove naloge.

Preprosto nadomestite "naloge" z "naročila v paketu". Pravilno učenje naloge pomeni, da se agent nauči vdelave, ki lahko abstraktira položaj kock (konfiguracija), pa tudi njihovo identiteto (nalogo), število zložb (naloga) in usmeritev demonstracije (na kratko predstavljeno v ponudba) za ustvarjanje ustreznega motoričnega odziva.

Te posplošitve se zdijo nasprotujoče, kako lahko isto omrežje abstraktira začetno konfiguracijo kocke ali njihovo identiteto in obenem povrne svoj absolutni položaj za motorni odziv?

To pojasnjuje potrebo po različnih sodelovalnih podomrežjih med učenjem, prejemanjem različnih vhodov, in pojasnjuje, da se v kontekstnem omrežju abstraktni prikaz naloge poda pred nižjim ukazom informacije nižjega reda, kot so absolutne kocke kock.

Morda boste pomislili, da je komentiranje tega razlikovanja naloge in konfiguracije neumno, a bistveno je razumeti, da gre v bistvu za enak postopek abstrakcije pri igri na različnih predmetih (in to se odpre za naslednji razdelek).

Brez invariance ni učenja

Prenosno učenje je morda najbolj fascinanten pojem spoznanja, naj bo to in-siliko ali in-vivo, je zelo vroča tema tako za raziskovalce AI kot za nevroznanstvenike in slučajno je predmet moje doktorske disertacije. Upoštevajte, da so tesno povezani koncepti raziskovali na mnogih področjih pred strojnim učenjem, ta abstraktni in vedno delno definirani koncept pa ima mnogo imen. Filozofi, antropologi in sociologi bi jo lahko navajali kot (post) strukturalizem (Claude Levi-Strauss, Michel Foucault), jezikoslovec bo govoril o strukturi sintagme in gnezdečih dreves (Noam Chomsky), matematiki bodo verjetno razmišljali o homeomorfizmu ali invazivnostih in izobraževanju raziskovalci ali nevroznanstveniki jo lahko imenujejo strukturno učenje. Morda boste videli tudi soroden koncept na področju strojnega učenja, kot sta reprezentacijsko učenje in meta učenje, ki se lahko, odvisno od avtorja, nanaša na prenosno učenje ali paradigmo učenja, ki se uporablja za izvajanje transfernega učenja. Ko govorimo o globokih nevronskih omrežjih, so te razlike zamegljene, saj se v bistvu Nevronska mreža nauči vdelati določen problem (reprezentacijsko učenje) tako, da spremeni svojo strukturo (meta-učenje) običajno v hrupnem okolju, kar pomeni obliko prenosa učenja.

Raziskovalci AI in kognitivni znanstveniki imajo pogosto zelo konkretno definicijo prenosnega učenja, saj sistem omogoča, da znanje, pridobljeno pri določeni nalogi, uporabi drugo nalogo, ki ima skupno kompozicijsko strukturo (kot je opisano v članku). Kognitivna znanost ima takšen pojem skorajšnjega in oddaljenega prenosa, odvisno od tega, kako se zdi, da se obe nalogi razlikujeta. Toda z bolj abstraktne perspektive je v hrupnem in zapletenem okolju vse učenje oblika transfernega učenja in razlika med zelo bližnjim in zelo oddaljenim prenosom je le stvar skupnih informacij - spet vprašanje obsega, ne narave.

V nadzorovanem okolju si vnaprej prizadevamo za izgradnjo težko kodirane diskretacije resničnosti, toda v resnici ta diskretitacija postopoma reproducira tisto, kar počne prenosno učenje, združuje neskončen nabor stanj, ki jih v resnici najdemo v skupni ograjeni strukturi. V bistvu se transferno učenje nanaša neposredno ali z razširitvijo na proces, s pomočjo katerega učni agenti uporabljajo invariante za izdelavo svetovnih modelov. To je postopek, ki uporablja podobnosti, ponovitve in različice istega, da tvori vedno bolj abstraktno in sestavljeno predstavitev, ki bo strukturirala ansamble preko razpona variance z vnosom. V splošnem smislu omogoča ustvarjanje osnovnih operacij, s katerimi manipuliramo z informacijskimi skupinami, podobno kot v matematiki omogoča združevanje in presečišča. Omogoča identitete, pojasnjuje našo sposobnost kategorizacije predmetov. Josh Tenembaum daje primer, ki mi je res govoril: predstavljajte, da učite dveletnega otroka, da prvič prepozna konja, mu pokažete par slik različnih konj in mu nato pokažete sliko drugega konja in sliko hiše in ga prosite, naj vam pove, kateri je konj. Otrok bo to nalogo opravil dokaj enostavno, vendar je to še vedno nekaj, kar računalnik ne more dobro opraviti s tako malo vložki (učenje z enim strelom).

Kako je to storil otrok?

Prepoznavanje živali smo preučevali pri otrocih in se nanašajo na našo sposobnost dekonstrukcije predmetov na ustrezne dele, barvni razpon krzna, velikost vratu, celotno obliko itd. Ta sposobnost je tudi tisto, kar vam omogoča, da odprete vrata še nikoli niste videli, ste se naučili motoričnega zaporedja, ki posplošuje v vsako situacijo (posploševanje domene). Je tudi tisto, kar uporabljate za izdelavo razlagalnih modelov, ki poenostavljajo svet, morda vas bo sprva presenetilo nenadno prikazovanje kukavice v znameniti švicarski uri, a po drugem nastopu boste to pričakovali. Iskanje invariance je, kako se nevronska mreža uči in ti modeli nastajajo nezavedno. Primer je, kako se intuitivno učimo fizike, še preden smo slišali za matematiko in številke.

Vpraša se lahko na primer, kako hitro bi se otrok, rojen v mikrogravitaciji, prilagajal gravitaciji zemlje in se intuitivno naučil, da bodo predmeti padli na tla, ko bodo padli?

Mogoče lahko domnevamo, da bodo dojenčki in večina živali nezavedno revidirali svoj model, podobno kot takrat, ko si nogavice nataknete na šape psa in potrebuje nekaj časa, da se prilagodi novim informacijam.

Toda za majhnega otroka bo potekalo zavestno zasliševanje in revizija njegovega intuitivnega modela, od radovednosti, preko jezika, simbolov in prepričanj. Naša sposobnost zavestnega zasliševanja in spreminjanja naših modelov je fascinantna, zato je človek lahko edina vrsta, ki lahko verbalizira postopek, vendar lahko druge vrste izvajajo podobne zavestne spremembe.

Invarencija je obvezna lastnost časa, če bi bilo vse vedno novo in nikakor ne predvidljivo, bi še vedno ostala ta edinstvena invariantnost, da je vse vedno novo in nepredvidljivo. Nemogoče si je predstavljati sveta brez invariance, saj ne bi bilo sveta, na katerega bi se lahko sklicevali, brez invariance bi bilo življenje nemogoče in naši možgani neuporabni. Življenje je stroj, ki deluje le s predvidljivo ponovitvijo dogodkov, ponavljanjem vzrokov in učinkov, cikličnim ponovnim vnosom energije v organizem. In v življenju, ki si prizadeva izboljšati uporabo potrebnih ciklov, so naši možgani najboljše orodje. Gre za napovedovalni stroj, prilagodljiv organ, ki lahko dinamično najde ponovitev in ga uporabi za boljše interakcije s svetom.

Ta metoda, ki jo je izbralo življenje, je izjemno robustna do rahlih sprememb v strukturi. Nenazadnje ostaja svet, statistične lastnosti okolja, toda nevronska struktura, s katero se srečuje, je lahko različna, dokler lahko vgradi ustrezne informacije, ki jih je razvila za zdravljenje. To pojasnjuje, zakaj so naši možgani lahko tako različni od posameznika do posameznika, celo primarni kortikli, in imajo enake funkcije.

Živčni sistemi so prilagodljivi, za spreminjanje vedenja na ustrezne načine ne potrebujejo evolucije in počasnih genetskih mutacij. Preprost živčni sistem, kakršen je bil v C. Elegans, služi kot prirojen notranji koordinator in zunanji senzor: občutite hrano in se pomikajte proti njej, bežite pred bolečino, razmnožite se. Ti preprosti sistemi so bili na začetku togi in so imeli skrajni približek našega zelo hrupnega sveta, da bi ga diskretizirali v majhnem naboru možnih stanj (hrana na levi, toplota spodaj itd.). Naše motorične in senzorične sposobnosti so se razvijale z roko v roki z napovednimi sposobnostmi živčnega sistema. Ko so postali naši senzorji natančnejši, je živčni sistem počasi lahko spreminjal svojo strukturo, da je shranjeval informacije in se učil iz izkušenj. Sprva se je lahko naučil prepoznati nekatere kategorije vhodov, kot so vrste vonjav ali svetlobnih vzorcev, prav tako pa se je lahko s poskusom in napakami učil za nadzor nad svojim vse bolj zapletenim motornim sistemom. Upoštevajte, da je svet tako kompleksen, da so se naši možgani seveda razvili v paradigmo učenja, ne pa na prirojen procesni pristop. Računalniško gledano ima to popoln smisel, preprosta igra Go ima vesoljski prostor veliko večji (2,10¹⁷⁰) od števila atomov v vesolju (10,) in ker organizmi postajajo bolj zapleteni in poskušajo trdo kodirati približke vseh možnih navaja, da bi bil lahko hitro kombinatoričen zaradi eksplozije.

Nekateri ljudje lahko verjamejo, da so naši možgani zgrajeni tako, da notranje predstavlja prostor, v katerem se bo razvijal, da nekje v DNK obstaja gen za tisto, kar tvori obraz, ali časovna organizacija zvočnih valov, ki ustvarjajo gor besede. Lahko verjamejo, da je to prirojeno znanje nekje kodirano ob rojstvu. Drugi bi lahko verjeli, tako kot moj učitelj filozofije, ko sem bil v srednji šoli, da obstoj predhodi bistvu in da so naši možgani popolnoma in edino opredeljeni s srečanjem organizma in sveta. Resničnost je seveda bolj zapletena in pri večini do sedaj preučenih telencefalnih sistemov možgani ne kodirajo notranje funkcije, ki jo bodo opravljali, ampak jo bodo naučili, odvisno od informacij, ki jih vsebujejo njeni vnosi. Če je vnos ustreznih informacij premajhen, ima lahko sposobnost učenja v tej strukturi rok veljavnosti (npr. Amblyopia). Če pa prirojena struktura ne kodira končne funkcije, imajo možgani določeno strukturo. Ta struktura je ohranjena pri posameznikih in posamezniki iste vrste imajo skupne funkcije in pogone. DNK sicer vzpostavi določeno strukturo, strukture, ki ni sposobna notranje opravljati svoje končne funkcije, ampak strukturo, ki se lahko nauči zapletenosti določenih nalog na podlagi posameznih izkušenj. Ni presenetljivo, da je zaradi evolucije prišlo do zelo učinkovite krvno-možganske pregrade, ki možgane izolira od preostalega telesa, kot tudi meninge in trdo kostno lupino, ki jo ščitijo od zunanjega sveta, ker za razliko od drugih organov, v katerih struktura je kodirana v genomu, strukture izučenih možganov ni mogoče obnoviti iz notranje shranjenega modela. Kar je fascinantno, je to, da vidimo iste mehanizme učenja, ki nastanejo po analogiji z razvojem vse bolj zapletenih globokih mrež, ki izvajajo vse bolj zapletene naloge.

Kompozicijske strukture je težko opaziti, vendar povsod

Kot stranski navedba je nenavadno, da tudi avtorji ne priznavajo, da ima njihova prva naloga doseganja cilja kompozicijsko strukturo.

Delci, ki dosegajo naloge, lepo pokažejo izzive pri posploševanju v poenostavljenem scenariju. Naloge pa nimajo kompozicijske strukture, zato je vrednotenje posplošitve novih nalog izzivno.

Čeprav je struktura res nižja od zlaganja blokov in ni zlahka dostopna eksperimentalnim manipulacijam, je naloga res sestavljena iz skupne strukture. Pri približevanju svetu ravnini je ena kompozicijska struktura ta, da se identiteta kocke (barva) ohrani s prevodom in gre iz bloka A - ali naključnega začetnega položaja - na položaju (Xa1, Ya1) do bloka B na položaju (Xb1, Yb2 ) je del iste kompozicijske strukture višjega reda kot prehod iz bloka A na položaju (Xa2, Ya2) do bloka B na položaju (Xb2, Yb2).

Vmesniki med omrežji

Agence nevronskih mrež, ki lahko obravnavajo vložke na različnih ravneh abstrakcije, bodo potrebovale vmesnike, za katero domnevam, da je veliko odkriti. Ti vmesniki so lahko številne narave. Lahko jih na primer vidimo kot skupni jezik med dvema omrežjema, kot je prikazano v članku, mreža nižje ravni, oborožena s sistemom pozornosti (demonstracijska mreža), lahko demonstracijo prevede v reprezentacijo, ki jo lahko uporabi drugo omrežje (kontekstna mreža) usmeriti dejanje ne glede na dolžino ali začetno konfiguracijo demonstracije.

Površina tega jezika je tu ravnina, določena v velikosti, vendar si lahko predstavljamo možne spremembe, ki bi lahko izboljšale komunikacijo med omrežjem. Na primer, velikost površine se lahko nastavi, da se dinamično povečuje ali krči, ko omrežja med učenjem medsebojno vplivajo, s čimer stisnemo ali razširimo jezikovno zapletenost. Lahko bi si zamislili tudi bolj dinamične interakcije, na primer s povratnimi informacijami. Lahko bi si predstavljali obstoj mrež spodbujevalcev, ki bi se naučile gladke komunikacije med omrežji, ki obstajajo kot vzporedno omrežje, ki se naučijo modulirati vhod prvega omrežja na podlagi vhoda in izhoda drugega omrežja. Lahko bi si predstavljali zapletene kontekstne mreže, ki delujejo kot tonično (počasi spreminjajoče se) prilive na več bolj specializiranih mrež ... Fascinantno prihodnje področje raziskav!

Primeri napak namigujejo na možne vloge novih modulov

Omeniti velja, da so napake pogosto posledica motoričnih napak in da se število napak povečuje s kompleksnostjo naloge.

Motornih funkcij ne bi smeli poslabšati le s povečanjem števila tarč, to je močan dokaz, da je način, kako se reprodukcijsko omrežje nauči pogovarjati z motornim omrežjem, preveč abstrakten. Nenavadno je, ker pravijo, da njihov test kaže, da je vmesnik med kontekstnim omrežjem in motornim omrežjem razmeroma konkreten (položaj robota, položaj tarče).

Ker gre za modularno arhitekturo, je možna rešitev uporaba različnih funkcij izgube ali modularne izgubne funkcije, ki predstavljajo vsak poseben vidik naloge. Pomagal bi mu tudi ekvivalent predmotornih področij možganov, da bi zagotovili, da lahko demonstracijsko omrežje in kontekstno omrežje ostaneta abstraktni, ne da bi pri tem poslabšali motorični ukaz. Predmotorne regije so potrebne za boljšo lokalizacijo predmetov glede na cilj (iz abstraktnih omrežij) in senzoričnih vhodov, da bi izbrali najboljši motorni ukaz. Zdi se, da kontekstna mreža poskuša demonstracijo prenesti na vgradnjo na višji nivo in hkrati pripraviti motorično akcijo v trenutnem kontekstu. Vloga pred-motornega omrežja bi bila, da se nauči komunicirati z motoričnim sistemom na ciljno usmerjen in prilagodljiv način, ki združuje tako funkcije premotorja kot tudi možganca za motorično učenje in hitro prilagajanje.

Paradoks Moravca je zanimiva teorija, ki napoveduje, da računsko obdavčitev ne bo večja kognicija, temveč obravnava senzoričnih vhodov in izhodov motornih sistemov. To bi res lahko pomenilo veliko količino nevronov, ki so prisotni v našem možganu (več kot v preostalem delu naših možganov), da prilagodimo motorično delovanje. Ta paradoks je bil izoblikovan v času (osemdeseta), ko smo še vedno verjeli, da bomo lahko svoje znanje vgradili v stroj za izvajanje kompleksnih nalog v nenadzorovanih hrupnih okoljih. Seveda je ta paradoks smiseln, če je stroj nekako sposoben predstavljati svet v diskretiziranem naboru stanj, lažje bi zgradili funkcijo na višji ravni. Verjamem pa, da se bosta oba izkazala za izjemno obdavčljiva in notranja zastopanost, uporabljena na vmesniku med omrežji, še zdaleč ne bo podobna našim zavestnim predstavitvam.

Zaključek

Ta članek s kombinacijo različnih nevronskih mrež, ki so vsaka zadolžena za določeno obravnavo težave, kaže, da z ustvarjanjem naloge, ki je sama po sebi potrebna posplošitev, in izgradnjo ustreznega učnega okolja s pomočjo randomizacije domen, nevronske mreže z dostopom do pomnilnika in sistem pozornosti se lahko nauči posploševanja izven preproste reprodukcije. Nauči se lahko odkrivati ​​cilj višjega reda, ki je bil samo enkrat prikazan v vizualnem toku informacij, in izvede računanje v posplošenem prostoru, da si povrne ustrezne akcije, ki lahko ta cilj reproducirajo v drugačnem kontekstu.

V prihodnosti bomo videli vse večjo zapletenost struktur, zgrajenih na tistih atomskih gradnikih, ki se bodo lahko naučili posploševati kompleksne naloge, še pomembneje pa je, da se več takšnih nalog opravi v novih okoljih z manj zanašanja na trde kodirane metode, kot je predhodna obdelava vhodov oz. pomnilnik pomnilnika. Shranjevanje pomnilnika bo nadomeščeno s porazdeljenimi predstavitvami po pomnilniškem omrežju, pozorni sistemi pa bodo nadomeščeni s cikličnimi aktivnostmi v realnem času prizoriščnih omrežij. Vprašanje ostaja vprašanje, kako bomo sposobni prilagoditi močno serijsko tehnologijo (Turingovi stroji) našim večjim zanašanjem na porazdeljeno računalništvo v utelešenem sistemu.