Home Nieuws Waarom versterkende leerplateaus zonder representatieve diepgang (en andere belangrijke inzichten uit NeurIPS...

Waarom versterkende leerplateaus zonder representatieve diepgang (en andere belangrijke inzichten uit NeurIPS 2025)

6
0
Waarom versterkende leerplateaus zonder representatieve diepgang (en andere belangrijke inzichten uit NeurIPS 2025)

Afbeelding gegenereerd met behulp van OpenAI’s DALL·E

Elk jaar produceert NeurIPS honderden indrukwekkende artikelen en een handvol artikelen die op subtiele wijze de manier veranderen waarop praktijkmensen denken over schaalvergroting, evaluatie en systeemontwerp. In 2025 gingen de meest consequente werken niet over één enkel werk baanbrekend model. In plaats daarvan stelden ze fundamentele aannames ter discussie waar academici en bedrijven stilletjes op hebben vertrouwd: grotere modellen betekenen beter redeneren, RL schept nieuwe mogelijkheden, de aandacht staat ‘vast’ en generatieve modellen onthouden onvermijdelijk.

De topartikelen van dit jaar wijzen gezamenlijk op een diepere verschuiving: de vooruitgang op het gebied van AI wordt nu minder beperkt door de capaciteit van ruwe modellen en meer door architectuur, trainingsdynamiek en evaluatiestrategie.

Hieronder vindt u een technische diepgaande duik in vijf van de meest invloedrijke NeurIPS 2025-papers – en wat ze betekenen voor iedereen die echte AI-systemen bouwt.

1. LLM’s convergeren – en we hebben eindelijk een manier om dit te meten

Papier: Kunstmatige Hivemind: de open homogeniteit van taalmodellen

Jarenlang, LLM-evaluatie hebben zich op juistheid geconcentreerd. Maar bij open of dubbelzinnige taken zoals brainstormen, ideevorming of creatieve synthese is dat vaak het geval is niet één juist antwoord. Het risico is in plaats daarvan homogeniteit: modellen die dezelfde ‘veilige’ antwoorden met hoge waarschijnlijkheid opleveren.

Dit artikel introduceert oneindige chat, een benchmark die expliciet is ontworpen om diversiteit en pluralisme in generaties met een open einde te meten. In plaats van antwoorden als goed of fout te beoordelen, meet het:

Het resultaat is onaangenaam maar belangrijk: tussen architecturen en providers convergeren modellen steeds meer op vergelijkbare output, zelfs als er meerdere geldige antwoorden bestaan.

Waarom dit in de praktijk van belang is

Voor bedrijven herformuleert dit ‘aanpassing’ als een afweging. Voorkeurstemmen en veiligheidsbeperkingen kunnen de diversiteit stilletjes verminderen, wat ertoe kan leiden dat assistenten zich te veilig, voorspelbaar of bevooroordeeld voelen tegenover dominante standpunten.

Afhaalmaaltijden: Als uw product afhankelijk is van creatieve of onderzoeksresultaten, moeten diversiteitsstatistieken eersteklas burgers zijn.

2. De aandacht is nog niet voorbij: een simpel hek verandert alles

Papier: Gated aandacht voor grote taalmodellen

Transformatoraandacht is behandeld als vast technisch werk. Dit document bewijst dat dit niet het geval is.

De auteurs introduceren een kleine architectonische verandering: passen een vraagafhankelijke sigmoïde poort toe na geschaalde puntproductaandacht, per aandachtskop. Dat is het. Geen exotische kernen, geen enorme overhead.

EENkruis tientallen grootschalige trainingsruns – inclusief dichtbij en mix van experts (MoE) modellen getraind op biljoenen tokens – deze gated variant:

  • Verbeterde stabiliteit

  • Verminderde “aandachtsdrain”

  • Verbeterd prestaties op de lange termijn

  • Consequent beter dan vanille-aandacht

Waarom het werkt

De haven introduceert:

  • Niet-lineariteit in aandachtsoutputs

  • Impliciete spaarzaamheidonderdrukt pathologische activaties

Dit daagt de veronderstelling uit dat aandachtsverlies puur data- of optimalisatieproblemen zijn.

Afhaalmaaltijden: Enkele van de grootste LLM-betrouwbaarheidsproblemen kunnen architectonisch zijn (niet algoritmisch) en worden opgelost met verrassend kleine veranderingen.

3. RL kan schalen – als je diepgaand schaalt, en niet alleen data

Papier: 1000-laags netwerken voor zelfgestuurd versterkend lerenG

Conventionele wijsheid zegt dat RL niet goed kan opschalen zonder grote beloningen of demonstraties. Uit dit artikel blijkt dat deze veronderstelling onvolledig is.

Door de netwerkdiepte agressief op te schalen van standaard 2 naar 5 lagen naar bijna 1.000 lagen, demonstreren de auteurs dramatische winsten in zelfgecontroleerde, doelgeconditioneerde RL, met prestatieverbeteringen variërend van 2x tot 50x.

De sleutel is niet brute kracht. Het combineert diepte met contrastieve doelen, stabiele optimalisatieregimes en op doelen gebaseerde representaties

Waarom dit belangrijker is dan alleen robotica

Voor agentsystemen en autonome workflows suggereert dit dat representatieve diepte – en niet alleen data of beloningsvorming – een cruciale hefboom kan zijn voor generalisatie en verkenning.

Afhaalmaaltijden: De schaallimieten van RL kunnen architectonisch zijn en niet fundamenteel.

4. Waarom diffusiemodellen generaliseren in plaats van onthouden

Papier: Waarom diffusiemodellen zich dit niet herinneren: de rol van impliciete dynamische regularisatie bij training

Diffusiemodellen zijn enorm overgeparameteriseerd, maar toch generaliseren ze vaak opmerkelijk goed. In dit artikel wordt uitgelegd waarom.

De auteurs identificeren twee verschillende trainingstijdschalen:

Cruciaal is dat de tijdschaal voor het onthouden lineair groeit met de omvang van de dataset, waardoor een groter venster ontstaat waarin modellen verbeteren zonder overfitting.

Praktische implicaties

Dit hervormt strategieën voor vroegtijdig stoppen en het schalen van datasets. Memoriseren is niet onvermijdelijk – het is voorspelbaar en vertraagd.

Afhaalmaaltijden: Bij diffusietraining verbetert de omvang van de dataset niet alleen de kwaliteit, maar vertraagt ​​deze ook actief de overfitting.

5. RL verbetert de redeneerprestaties, niet het redeneervermogen

Papier: Motiveert versterkend leren echt het redeneren in LLM’s?

Misschien wel het meest strategisch belangrijke resultaat van NeurIPS 2025 is ook het meest ontnuchterende.

Dit artikel test grondig of versterkend leren met verifieerbare beloningen (RLVR) daadwerkelijk plaatsvindt creëert nieuwe redeneervaardigheden in LLM’s – of eenvoudigweg bestaande vaardigheden hervormen.

Hun conclusie: RLVR verbetert in de eerste plaats de efficiëntie van de bemonstering, niet het redeneervermogen. Bij grote steekproeven bevat het basismodel vaak al de juiste redeneerpaden.

Wat dit betekent voor LLM-onderwijspijplijnen

RL wordt beter begrepen als:

Afhaalmaaltijden: Om het redeneervermogen echt uit te breiden, moet RL waarschijnlijk gepaard gaan met mechanismen zoals lerarendistillatie of architecturale veranderingen – en niet op zichzelf gebruikt.

Het grotere plaatje: de vooruitgang op het gebied van AI wordt systeembeperkt

Alles bij elkaar wijzen deze artikelen op een gemeenschappelijk thema:

Het knelpunt erin moderne AI is niet langer de ruwe modelgrootte – het is systeemontwerp.

  • De ineenstorting van de diversiteit vereist nieuwe evaluatiemaatstaven

  • Aandachtsfouten vereisen architecturale correcties

  • RL-schaling is afhankelijk van diepte en representatie

  • Het onthouden is afhankelijk van de trainingsdynamiek, niet van het aantal parameters

  • De winst op het gebied van redeneren hangt af van de manier waarop verdelingen worden vormgegeven, en niet alleen van geoptimaliseerde verdelingen

Voor bouwers is de boodschap duidelijk: het concurrentievoordeel verschuift van ‘wie het grootste model heeft’ naar ‘wie het systeem begrijpt’.

Maitreyi Chatterjee is een software-ingenieur.

Devansh Agarwal werkt momenteel als ML Engineer bij FAANG.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, onbevooroordeelde diepgaande inzichten in AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma – en bekijk ons richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in