Home Nieuws De nieuwe Self-Flow-techniek van Black Forest Labs maakt het trainen van multimodale...

De nieuwe Self-Flow-techniek van Black Forest Labs maakt het trainen van multimodale AI-modellen 2,8x efficiënter

11
0
De nieuwe Self-Flow-techniek van Black Forest Labs maakt het trainen van multimodale AI-modellen 2,8x efficiënter

Om samenhangende afbeeldingen of video’s te maken, vertrouwden generatieve AI-diffusiemodellen zoals Stable Diffusion of FLUX doorgaans op externe ‘leerlingen’ (bevroren encoders zoals CLIP of DINOv2) om het semantische begrip te bieden dat ze niet op eigen kracht konden leren.

Maar aan deze afhankelijkheid zijn kosten verbonden: een ‘knelpunt’ waarbij het opschalen van het model niet langer betere resultaten oplevert omdat de externe leraar zijn limiet heeft bereikt.

Vandaag is de Duitse AI-startup Dat heeft Black Forest Labs (maker van de FLUX-serie AI-beeldmodellen) bekendgemaakt een potentieel einde aan dit tijdperk van academisch lenen het vrijkomen van Self-Floween zelfgecontroleerd flow-matching-framework waarmee modellen tegelijkertijd representatie en generatie kunnen leren.

Door een nieuw Dual-Timestep Scheduling-mechanisme te integreren, heeft Black Forest Labs aangetoond dat één enkel model geavanceerde resultaten kan bereiken op het gebied van afbeeldingen, video en audio zonder externe monitoring.

De technologie: de ‘semantische kloof’ doorbreken

Het fundamentele probleem met traditionele generatieve training is dat het een taak is die de ruis wegneemt. Het model krijgt geluid te zien en wordt gevraagd een foto te zoeken; het heeft heel weinig prikkels om te begrijpen wat het beeld is, alleen hoe het eruit ziet.

Om dit te verhelpen hebben onderzoekers eerder generatieve functies ‘fit’ met externe discriminantmodellen. Schwarzwald Labs stelt echter dat dit fundamenteel gebrekkig is: deze externe modellen werken vaak op de verkeerde doelen en slagen er niet in om te generaliseren over verschillende modaliteiten zoals geluid of robotica.

De nieuwe techniek van Labs, Self-Flow, introduceert een ‘informatie-asymmetrie’ om dit op te lossen. Met behulp van een techniek genaamd Dual-Timestep Scheduling past het systeem verschillende ruisniveaus toe op verschillende delen van de invoer. De leerling ontvangt een zwaar beschadigde versie van de gegevens, terwijl de leraar (een Exponential Moving Average (EMA)-versie van het model zelf) een “schonere” versie van dezelfde gegevens ziet.

De leerling wordt dan niet alleen belast met het genereren van de uiteindelijke output, maar ook met het voorspellen van wat zijn ‘schonere’ zelf ziet – een proces van zelfdistillatie waarbij de leraar zich op laag 20 bevindt en de leerling op laag 8. Deze ‘Dual-Pass’-benadering dwingt het model om een ​​diep, intern semantisch begrip te ontwikkelen dat zichzelf effectief leert zien terwijl het leert creëren.

Productimplicaties: sneller, scherper en multimodaal

De praktische resultaten van deze verschuiving zijn grimmig. Volgens het onderzoeksartikel convergeert Self-Flow ongeveer 2,8 keer sneller dan de REpresentation Alignment (REPA)-methode, de huidige industriestandaard voor het uitlijnen van functies. Misschien nog belangrijker is dat het niet stagneert; naarmate de berekeningen en parameters toenemen, blijft Self-Flow verbeteren, terwijl oudere methoden afnemende rendementen laten zien.

De sprong in trainingsefficiëntie kan het beste worden begrepen door de lens van ruwe computerstappen: terwijl standaard ‘vanille’-oefeningen traditioneel 7 miljoen stappen vereisen om een ​​basisprestatieniveau te bereiken, verkortte REPA deze reis tot slechts 400.000 stappen, wat neerkomt op een versnelling van 17,5x.

Het Self-Flow-framework van Schwarzwald Labs verlegt deze limiet nog verder en werkt 2,8 keer sneller dan REPA en bereikt dezelfde prestatiemijlpaal in ongeveer 143.000 stappen.

Samen vertegenwoordigen deze ontwikkelingen een bijna 50-voudige vermindering van het totale aantal trainingsstappen dat nodig is om resultaten van hoge kwaliteit te bereiken, waardoor wat ooit een enorme behoefte aan middelen was, feitelijk wordt samengevouwen tot een aanzienlijk toegankelijker en gestroomlijnder proces.

Schwarzwald Labs demonstreerde deze winst via een multimodaal model met 4B-parameters. Getraind op een enorme dataset van 200 miljoen afbeeldingen, 6 miljoen video’s en 2 miljoen audio-videoparen, liet het model aanzienlijke sprongen zien op drie belangrijke gebieden:

  1. Typografie en tekstweergave: Een van de meest hardnekkige ‘vertellers’ van AI-beelden is verminkte tekst. Self-Flow presteert aanzienlijk beter dan vanilla flow matching door complexe, leesbare borden en labels weer te geven, zoals een neonbord dat correct aangeeft: “FLUX is multimodaal”.

  2. Tijdcontext: Bij het genereren van video’s elimineert Self-Flow veel van de “gehallucineerde” artefacten die veel voorkomen in de huidige modellen, zoals ledematen die spontaan verdwijnen tijdens beweging.

  3. Gemeenschappelijke video-audiosynthese: Omdat het model representaties native leert, kan het gesynchroniseerde video en audio genereren vanaf een enkele prompt, een taak waarbij externe “geleende” representaties vaak mislukken omdat een encoder geen audio begrijpt.

In termen van kwantitatieve statistieken behaalde Self-Flow superieure resultaten vergeleken met op concurrentie gebaseerde basislijnen. Op Image FID scoorde het model 3,61 vergeleken met REPA’s 3,92. Voor video (FVD) scoorde het 47,81 vergeleken met REPA’s 49,59, en voor audio (FAD) scoorde het 145,65 tegen de vanille-basislijn van 148,87.

Van pixels tot planning: het pad naar wereldmodellen

De aankondiging eindigt met een blik op wereldmodellen: AI die niet alleen mooie beelden genereert, maar ook de onderliggende fysica en logica van een planning- en robotica-scene begrijpt.

Door een 675M-parameterversie van Self-Flow op de RT-1-robotdataset te verfijnen, behaalden de onderzoekers aanzienlijk hogere succespercentages bij complexe meerstapstaken in de SIMPLER-simulator. Terwijl de standaard flow-matching worstelde met complexe ‘Open and Place’-taken, en vaak volledig faalde, behield het Self-Flow-model een stabiel succespercentage, wat suggereert dat de interne representaties robuust genoeg zijn voor visueel redeneren in de echte wereld.

Implementatie en technische details

Voor onderzoekers die deze beweringen willen verifiëren: Black Forest Labs heeft een inferentiesuite op GitHub uitgebracht specifiek voor de ImageNet 256×256-generatie. Het project, voornamelijk geschreven in Python, biedt de SelfFlowPerTokenDiT-modelarchitectuur op basis van SiT-XL/2.

Ingenieurs kunnen het meegeleverde sample.py-script gebruiken om 50.000 afbeeldingen te genereren voor standaard FID-evaluatie. De repository benadrukt dat een belangrijke architectonische verandering in deze implementatie de tijdstapconditionering per token is, waardoor elk token in een reeks kan worden geconditioneerd op basis van zijn specifieke ruistijdstap. Tijdens de training gebruikte het model gemengde precisie BFloat16 en AdamW-optimizer met gradiëntclipping om de stabiliteit te behouden.

Licenties en beschikbaarheid

Schwarzwald Labs heeft dat gedaan het onderzoeksvoorstel gedaan En officiële definitieve code beschikbaar via GitHub en hun onderzoeksportaal. Hoewel dit momenteel een onderzoeksvoorbeeld is, suggereert de staat van dienst van het bedrijf met de FLUX-modelfamilie dat deze innovaties in de nabije toekomst waarschijnlijk hun weg zullen vinden naar hun commerciële API en openstaande saldi.

Voor ontwikkelaars is de overstap van externe encoders een enorme efficiëntiewinst. Het elimineert de noodzaak om tijdens de training afzonderlijke, zware modellen zoals DINOv2 te beheren, vereenvoudigt de stapel en maakt meer gespecialiseerde, domeinspecifieke training mogelijk die niet afhankelijk is van het ‘bevroren’ begrip van de wereld van iemand anders.

Takeaways voor technische besluitvormers en gebruikers van ondernemingen

Voor bedrijven betekent de komst van Self-Flow een aanzienlijke verschuiving in de kosten-batenanalyse van de ontwikkeling van eigen AI.

Hoewel de meest directe begunstigden organisaties zijn die grote modellen helemaal opnieuw trainen, toont het onderzoek aan dat de technologie net zo krachtig is voor verfijning van hoge resoluties. Omdat de methode bijna drie keer sneller convergeert dan de huidige standaarden, kunnen bedrijven state-of-the-art resultaten behalen met een fractie van het traditionele rekenbudget.

Deze efficiëntie maakt het voor bedrijven haalbaar om verder te gaan dan generieke kant-en-klare oplossingen en gespecialiseerde modellen te ontwikkelen die diep zijn afgestemd op hun specifieke datadomeinen, of het nu gaat om niche-medische beeldvorming of bedrijfseigen industriële sensorgegevens.

De praktische toepassingen van deze technologie strekken zich uit tot industriële sectoren die veel inspanning vereisen, met name robotica en autonome systemen. Door gebruik te maken van het vermogen van het raamwerk om ‘wereldmodellen’ te leren, kunnen productie- en logistieke bedrijven vision-taal-actie (VLA)-modellen ontwikkelen die een superieur begrip van de fysieke ruimte en sequentieel redeneren bezitten.

In simulatietests zorgde Self-Flow ervoor dat robotcontrollers met succes complexe taken met meerdere objecten konden uitvoeren, zoals het openen van een la om er een item in te plaatsen, waar traditionele generatieve modellen faalden. Dit suggereert dat de technologie een fundamenteel hulpmiddel is voor elk bedrijf dat de kloof wil overbruggen tussen het genereren van digitale inhoud en fysieke automatisering in de echte wereld.

Naast prestatiewinst biedt Self-Flow bedrijven een strategisch voordeel door de onderliggende AI-infrastructuur te vereenvoudigen. De meeste huidige generatieve systemen zijn “Frankenstein”-modellen die complexe, externe semantische encoders vereisen, vaak eigendom van en onder licentie van derden.

Door representatie en generatie in één enkele architectuur te verenigen, stelt Self-Flow bedrijven in staat deze externe afhankelijkheden te elimineren, de technische schulden te verminderen en ‘knelpunten’ weg te nemen die gepaard gaan met het opschalen van leraren van derden. Dit op zichzelf staande karakter zorgt ervoor dat naarmate een bedrijf zijn berekeningen en gegevens schaalt, de prestaties van het model voorspelbaar meeschalen, wat een duidelijker ROI oplevert voor AI-investeringen op de lange termijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in