De meeste talen gebruiken woordpositie en zinsstructuur om betekenis te extraheren. ‘De kat zat op de doos’ is bijvoorbeeld niet hetzelfde als ‘De doos zat op de kat’. In een lange tekst, zoals een financieel document of een roman, zal de syntaxis van deze woorden waarschijnlijk evolueren.
Op dezelfde manier kan een persoon variabelen in een stukje code volgen of instructies volgen die voorwaardelijke acties hebben. Dit zijn voorbeelden van staatsveranderingen en sequentieel redeneren waarvan we verwachten dat geavanceerde kunstmatige-intelligentiesystemen daarin zullen uitblinken; Het bestaande state-of-the-art aandachtsmechanisme van transformatoren – de primaire architectuur die in grote taalmodellen (LLM’s) wordt gebruikt om de betekenis van woorden te bepalen – heeft echter theoretische en empirische beperkingen als het gaat om dergelijke mogelijkheden.
Een aandachtsmechanisme stelt een LLM in staat terug te kijken naar eerdere delen van een vraag of document en, op basis van zijn training, te bepalen welke details en woorden er het meest toe doen; dit mechanisme alleen begrijpt echter de woordvolgorde niet. Het ‘ziet’ alle invoerwoorden, ook wel tokens genoemd, tegelijkertijd en verwerkt ze in de volgorde waarin ze worden gepresenteerd. Daarom hebben onderzoekers technieken ontwikkeld om positionele informatie te coderen. Dit is essentieel voor domeinen die zeer gestructureerd zijn, zoals taal. De heersende positiecoderingsmethode, genaamd Rotary Position Encoding (RoPE), houdt echter alleen rekening met de relatieve afstand tussen tokens in een reeks en is onafhankelijk van de invoergegevens. Dit betekent dat bijvoorbeeld woorden die vier posities uit elkaar liggen, zoals ‘kat’ en ‘doos’ in het bovenstaande voorbeeld, allemaal dezelfde vaste wiskundige rotatie zullen krijgen die specifiek is voor de relatieve afstand.
Nu heeft onderzoek onder leiding van MIT en het MIT-IBM Watson AI Lab een coderingstechniek opgeleverd die bekend staat als “PaTH Attention” en die positionele informatie adaptief en contextbewust maakt in plaats van statisch, zoals bij RoPE.
“Transformers maken nauwkeurige en schaalbare modellering van veel domeinen mogelijk, maar ze hebben deze beperkingen met betrekking tot het volgen van toestanden, een klasse van verschijnselen waarvan men denkt dat ze ten grondslag liggen aan belangrijke kenmerken die we in onze AI-systemen willen hebben. De belangrijke vraag is dus: hoe kunnen we de schaalbaarheid en efficiëntie van transformatoren behouden terwijl we het volgen van de toestand mogelijk maken?” zegt senior auteur van het artikel, Yoon Kim, universitair hoofddocent bij de afdeling Elektrotechniek en Computerwetenschappen (EECS), lid van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en onderzoeker bij het MIT-IBM Watson AI Lab.
Een nieuw artikel over dit werk werd eerder deze maand gepresenteerd op de Conference on Neural Information Processing Systems (NeurIPS). Kim’s co-auteurs zijn onder meer hoofdauteur Songlin Yang, een EECS-afgestudeerde student en voormalig MIT-IBM Watson AI Lab Summer Program-stagiair; Kaiyue Wen van Stanford Universiteit; Liliang Ren van Microsoft; en Yikang Shen, Shawn Tan, Mayank Mishra en Rameswar Panda van IBM Research en het MIT-IBM Watson AI Lab.
Het pad naar begrip
In plaats van elk woord een vaste rotatie toe te wijzen op basis van de relatieve afstand tussen tokens, zoals RoPE doet, is PathH Attention flexibel en behandelt het de woorden daartussen als een pad dat bestaat uit kleine, data-afhankelijke transformaties. Elke transformatie, gebaseerd op een wiskundige bewerking die een Householder-reflectie wordt genoemd, fungeert als een kleine spiegel die zich aanpast afhankelijk van de inhoud van elk token dat wordt doorgegeven. Elke stap in een reeks kan van invloed zijn op de manier waarop het model informatie later interpreteert. Door het cumulatieve effect kan het systeem modelleren hoe de betekenis verandert langs het pad tussen woorden, en niet alleen hoe ver ze uit elkaar liggen. Met deze aanpak kunnen transformatoren bijhouden hoe entiteiten en relaties in de loop van de tijd veranderen, waardoor het een gevoel van ‘positioneel geheugen’ krijgt. Zie dit als het bewandelen van een pad terwijl je je omgeving ervaart en hoe deze je beïnvloedt. Daarnaast heeft het team ook een hardware-efficiënt algoritme ontwikkeld om de aandachtsscores tussen elk paar tokens efficiënter te berekenen, waarbij de cumulatieve wiskundige transformatie van PaTH Attention wordt gecomprimeerd en in kleinere berekeningen wordt opgedeeld om compatibel te zijn met snelle verwerking op GPU’s.
De MIT-IBM-onderzoekers onderzochten vervolgens de prestaties van PaTH Attention op synthetische en reële taken, inclusief redeneren, lange-contextbenchmarks en volledige LLM-training om te zien of dit het vermogen van een model om informatie bij te houden in de loop van de tijd verbeterde. Het team testte zijn vermogen om het nieuwste ‘schrijf’-commando te volgen, ondanks veel afleidende stappen en meerstaps terugroeptests, taken die moeilijk zijn voor standaard positionele coderingsmethoden zoals RoPE. De onderzoekers trainden ook middelgrote LLM’s en vergeleken deze met andere methoden. PaTH Attention zorgde voor meer verwarring en presteerde beter dan andere methoden op redeneringsbenchmarks waarvoor het niet was getraind. Ze evalueerden ook het ophalen, redeneren en stabiliteit met de invoer van tienduizenden tokens. PaTH Attention bleek consequent in staat te zijn tot inhoudelijke bewustwording.
“We ontdekten dat zowel bij diagnostische taken die zijn ontworpen om de beperkingen van transformatoren te testen als bij taken voor taalmodellering in de echte wereld, onze nieuwe aanpak in staat was om bestaande aandachtsmechanismen te overtreffen en tegelijkertijd hun effectiviteit te behouden”, zegt Kim. Verder: “Ik zou graag willen zien of dit soort data-afhankelijke positionele coderingen, zoals PATH, de prestaties van transformaties op gestructureerde domeinen zoals biologie, in (analyse van) eiwitten of DNA verbeteren.”
Denk groter en efficiënter
De onderzoekers onderzochten vervolgens hoe het PaTH-aandachtsmechanisme zou werken als het de menselijke cognitie meer zou nabootsen, waarbij we oude of minder relevante informatie negeren bij het nemen van beslissingen. Om dit te doen, combineerden ze PaTH Attention met een ander positiecoderingsschema dat bekend staat als de Forgetting Transformer (FoX), waarmee modellen selectief kunnen “vergeten”. Het resulterende PaTH-FoX-systeem voegt een manier toe om informatie op een data-afhankelijke manier te verkleinen en behaalt sterke resultaten op het gebied van redeneren, begrip van lange contexten en benchmarks voor taalmodellering. Op deze manier breidt Path Attention de expressieve kracht van transformatorarchitecturen uit.
Kim zegt dat dit soort onderzoek deel uitmaakt van een bredere inspanning om ‘the next big thing’ op het gebied van AI te ontwikkelen. Hij legt uit dat een belangrijke drijvende kracht achter zowel de deep learning- als de generatieve AI-revoluties de creatie is geweest van ‘algemene bouwstenen die kunnen worden toegepast op brede domeinen’, zoals ‘convolutielagen, RNN-lagen (recurrent neuraal netwerk)’ en meest recentelijk transformatoren. Vooruitkijkend merkt Kim op dat overwegingen zoals nauwkeurigheid, expressiviteit, flexibiliteit en hardwareschaalbaarheid van cruciaal belang zijn en zullen zijn. Zoals hij het stelt: “de kernactiviteit van modern architectuuronderzoek is het bedenken van deze nieuwe primitieven die de expressiviteit behouden of versterken en tegelijkertijd schaalbaar zijn.”
Dit werk werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab en het AI2050-programma bij Schmidt Sciences.


