Home Nieuws Het ‘Nested Learning’-paradigma van Google zou het geheugen- en continue leerprobleem van...

Het ‘Nested Learning’-paradigma van Google zou het geheugen- en continue leerprobleem van AI kunnen oplossen

16
0
Het ‘Nested Learning’-paradigma van Google zou het geheugen- en continue leerprobleem van AI kunnen oplossen

Onderzoekers bij Google hebben een nieuw AI-paradigma ontwikkeld dat tot doel heeft een van de grootste beperkingen van de hedendaagse grote taalmodellen aan te pakken: hun onvermogen om na training hun kennis te leren of bij te werken. Het paradigma, genaamd Ingebed lerenherformuleert een model en de training ervan, niet als een enkel proces, maar als een systeem van geneste optimalisatieproblemen op meerdere niveaus. De onderzoekers beweren dat deze aanpak expressievere leeralgoritmen kan ontsluiten, wat leidt tot beter leren en geheugen in context.

Om hun concept te bewijzen, gebruikten de onderzoekers Nested Learning om een ​​nieuw model te ontwikkelen, genaamd Hope. Uit eerste experimenten blijkt dat het superieure prestaties levert op het gebied van taalmodellering, continu leren en taken op het gebied van contextredenering op de lange termijn, wat mogelijk de weg vrijmaakt voor efficiënte AI-systemen die zich kunnen aanpassen aan reële omgevingen.

Het geheugenprobleem van grote taalmodellen

Diepgaande leeralgoritmen hielp de behoefte aan de nauwgezette engineering en domeinexpertise die traditioneel machinaal leren vereist, te vermijden. Door modellen enorme hoeveelheden gegevens te geven, konden ze zelf de noodzakelijke representaties leren. Maar deze aanpak bracht zijn eigen reeks uitdagingen met zich mee die niet konden worden opgelost door simpelweg meer lagen op elkaar te stapelen of grotere netwerken te creëren, zoals het generaliseren naar nieuwe gegevens, het voortdurend leren van nieuwe taken en het vermijden van suboptimale oplossingen tijdens de training.

Inspanningen om deze uitdagingen te overwinnen hebben geleid tot de innovaties die daartoe hebben geleid Transformatorende basis van de huidige grote taalmodellen (LLM’s). Deze modellen hebben “een paradigmaverschuiving aangekondigd van taakspecifieke modellen naar meer algemene systemen met verschillende opkomende capaciteiten als resultaat van het opschalen van de ‘echte’ architecturen”, schrijven de onderzoekers. Toch blijft er een fundamentele beperking bestaan: LLM’s zijn na de training grotendeels statisch en kunnen hun kernkennis niet bijwerken of nieuwe vaardigheden verwerven door nieuwe interacties.

Het enige aanpasbare onderdeel van een LLM is het contextueel leren vermogen dat het in staat stelt taken uit te voeren op basis van de informatie die onmiddellijk wordt verstrekt. Dit maakt huidige LLM’s analoog aan een persoon die geen nieuwe langetermijnherinneringen kan vormen. Hun kennis is beperkt tot wat ze tijdens de vooropleiding hebben geleerd (het verre verleden) en wat zich in hun huidige context bevindt (het onmiddellijke heden). Wanneer een gesprek het contextvenster overschrijdt, gaat deze informatie voor altijd verloren.

Het probleem is dat de huidige op transformatoren gebaseerde LLM’s geen mechanisme hebben voor ‘online’ consolidatie. Informatie in het contextvenster werkt nooit de langetermijnparameters van het model bij: de gewichten die zijn opgeslagen in de feed-forward-laag. Als gevolg hiervan kan het model niet permanent nieuwe kennis of vaardigheden verwerven uit interacties; alles wat het leert verdwijnt zodra het contextvenster omrolt.

Een ingebedde benadering van leren

Nested Learning (NL) is ontworpen om computermodellen in staat te stellen te leren van gegevens met behulp van verschillende abstractieniveaus en tijdschalen, net als de hersenen. Het behandelt een enkel machine learning-model niet als één continu proces, maar als een systeem van onderling verbonden leerproblemen die tegelijkertijd in verschillende snelheden worden geoptimaliseerd. Dit wijkt af van de klassieke visie, die de architectuur van een model en het optimalisatie-algoritme als twee afzonderlijke componenten behandelt.

Volgens dit paradigma wordt het trainingsproces gezien als de ontwikkeling van een ‘associatief geheugen’, het vermogen om gerelateerde informatie te verbinden en terug te roepen. Het model leert een datapunt aan de lokale fout toe te wijzen, wat meet hoe “verrassend” dat datapunt was. Zelfs belangrijke architecturale componenten zoals het aandachtsmechanisme in transformatoren kunnen worden gezien als eenvoudige associatieve geheugenmodules die toewijzingen tussen tokens leren. Door voor elke component een updatefrequentie te definiëren, kunnen deze geneste optimalisatieproblemen worden gerangschikt in verschillende “niveaus” die de kern vormen van het NL-paradigma.

Hopen op continu leren

De onderzoekers brachten deze principes in de praktijk met Hope, een architectuur die is ontworpen om Nested Learning te belichamen. Hope is een aangepaste versie van Titaneneen andere architectuur die Google in januari introduceerde om de geheugenbeperkingen van het transformatormodel aan te pakken. Hoewel de Titans een krachtig geheugensysteem hadden, werden de parameters ervan slechts op twee verschillende manieren bijgewerkt: een langetermijngeheugenmodule en een kortetermijngeheugenmechanisme.

Hope is een zelfmodificerende architectuur aangevuld met een “Continuum Memory System” (CMS) dat onbeperkte niveaus van in-context leren mogelijk maakt en kan worden geschaald naar grotere contextvensters. Het CMS fungeert als een reeks geheugenbanken, die elk op een andere frequentie worden bijgewerkt. Banken die sneller updaten, verwerken onmiddellijke informatie, terwijl langzamere banken meer abstracte kennis over langere perioden consolideren. Hierdoor kan het model zijn eigen geheugen optimaliseren in een zelfreferentiële lus, waardoor een architectuur ontstaat met theoretisch oneindige leerniveaus.

Op basis van een gevarieerde reeks taalmodellering en gezond verstand-redeneringen demonstreerde Hope minder verwarring (een maatstaf voor hoe goed een model het volgende woord in een reeks voorspelt en de samenhang behoudt in de tekst die het genereert) en een hogere nauwkeurigheid vergeleken met zowel standaardtransformatoren als andere moderne terugkerende modellen. Hope presteerde ook beter bij ‘naald-in-hooiberg’-taken met een lange context, waarbij een model een specifiek stukje informatie moet vinden en gebruiken dat verborgen is in een grote hoeveelheid tekst. Dit suggereert dat het CMS een efficiëntere manier biedt om lange reeksen informatie te verwerken.

Dit is een van de vele pogingen om AI-systemen te creëren die informatie op verschillende niveaus verwerken. Hiërarchisch redeneermodel (HRM) van Sapient Intelligence, gebruikte een hiërarchische architectuur om het model effectiever te maken voor het leren van redeneertaken. Klein redeneermodel (TRM), een model van Samsung, verbetert het HRM door architecturale veranderingen aan te brengen, waardoor de prestaties worden verbeterd en tegelijkertijd efficiënter wordt gemaakt.

Hoewel veelbelovend, wordt Nested Learning geconfronteerd met enkele van dezelfde uitdagingen als deze andere paradigma’s bij het realiseren van het volledige potentieel ervan. De huidige AI-hardware- en softwarestacks zijn sterk geoptimaliseerd voor klassieke deep learning-architecturen en Transformer-modellen in het bijzonder. Het op grote schaal adopteren van Nested Learning kan fundamentele veranderingen vereisen. Als het echter aan kracht wint, kan het leiden tot veel effectievere LLM’s die voortdurend kunnen leren, een functie die essentieel is voor echte bedrijfstoepassingen waar omgevingen, gegevens en gebruikersbehoeften voortdurend veranderen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in