Wanneer Liquid AI, een startup b.vopgericht door MIT-computerwetenschappers in 2023geïntroduceerd zijn Liquid Foundation Models series 2 (LFM2) in juli 2025was de pitch eenvoudig: Lever de snelste on-device basismodellen op de markt met behulp van de nieuwe ‘vloeibare’ architectuur, met training en inferentie-efficiëntie die kleine modellen tot een serieus alternatief maakten voor grote taalmodellen (LLM’s) die alleen in de cloud beschikbaar zijn, zoals OpenAI’s GPT-serie en Google’s Gemini.
De eerste release zorgde voor strakke controlepunten bij 350M-, 700M- en 1,2B-parameters, een hybride architectuur die zwaar gewogen was in de richting van gated korte convoluties, en benchmarkcijfers die de LFM2 een voorsprong gaven op concurrenten van vergelijkbare grootte, zoals de Qwen3, Llama 3.2 en Gemma 3 op zowel kwaliteit als CPU. De boodschap aan bedrijven was duidelijk: voor realtime, privacybeschermende AI op telefoons, laptops en voertuigen hoeft niet langer capaciteit te worden opgeofferd voor latentie.
In de maanden sinds deze lancering heeft Liquid LFM2 uitgebreid naar een bredere productlijn taak- en domeingespecialiseerde variëteitenA klein video-intake- en analysemodelen één edge-gerichte implementatiestack genaamd LEAP – en positioneerde de modellen als controlelagen voor agentische systemen op apparaten en op locatie.
Nu met de publicatie van het gedetailleerde LFM2-technische rapport van 51 pagina’s over arXivhet bedrijf gaat nog een stap verder: het publiceren van het zoekproces naar architectuur, de mix van trainingsgegevens, de distillatiedoelstelling, de curriculumstrategie en de pijplijn voor permanente educatie achter deze modellen.
En in tegenstelling tot eerdere open modellen is LFM2 gebouwd rond een herhaalbaar recept: een hardware-in-the-loop-zoekproces, een trainingscurriculum dat kleinere parameterbudgetten compenseert, en een pijplijn na de training die is afgestemd op het instructiegevoel en het gebruik van tools.
In plaats van eenvoudigweg gewichten en een API aan te bieden, publiceert Liquid in feite een gedetailleerde blauwdruk die andere organisaties als referentie kunnen gebruiken om hun eigen kleine, efficiënte modellen helemaal opnieuw te trainen, afgestemd op hun eigen hardware en implementatiebeperkingen.
Een modelfamilie die is ontworpen rond echte beperkingen, niet op basis van GPU-labs
Het technische rapport begint met een uitgangspunt waar bedrijven bekend mee zijn: echte AI-systemen bereiken hun grenzen lang voordat benchmarks dat doen. Latentiebudgetten, maximale geheugenlimieten en thermische regeling bepalen wat daadwerkelijk in productie kan worden uitgevoerd, vooral op laptops, tablets, opslagapparaten en mobiele apparaten.
Om dit aan te pakken, voerde Liquid AI architectuuronderzoek rechtstreeks uit op doelhardware, waaronder mobiele Snapdragon-SoC’s en Ryzen-notebook-CPU’s. Het resultaat is een consistent resultaat over de grootte heen: een minimale hybride architectuur die wordt gedomineerd door gesloten korte vouwblokken en een klein aantal aandacht voor gegroepeerde zoekopdrachten (GQA) laag. Dit ontwerp werd herhaaldelijk verkozen boven meer exotische lineaire aandacht- en SSM-hybriden, omdat het een Pareto-profiel met betere latentie-geheugen opleverde onder reële apparaatomstandigheden.
Dit is op drie manieren belangrijk voor bedrijfsteams:
-
Voorspelbaarheid. De architectuur is eenvoudig, parameterefficiënt en stabiel voor modelgroottes van 350M tot 2,6B.
-
Operationele draagbaarheid. Dense- en MoE-varianten delen dezelfde structurele ruggengraat, waardoor de implementatie in gemengde hardwarevloten wordt vereenvoudigd.
-
Haalbaarheid op het apparaat. De doorvoersnelheid van het vooraf invullen en decoderen op CPU’s overtreft vergelijkbare open modellen met ca. 2× in veel gevallen, waardoor de noodzaak wordt verminderd om routinetaken over te laten aan cloudeindpunten.
In plaats van te optimaliseren voor academische nieuwigheid, leest het rapport als een systematische poging om modellen te ontwerpen die bedrijven kunnen gebruiken daadwerkelijk verzonden.
Dit is opmerkelijk en praktischer voor bedrijven in een veld waar veel open modellen tijdens inferentie stilletjes toegang veronderstellen tot multi-H100-clusters.
Een trainingspijplijn die is aangepast aan bedrijfsrelevant gedrag
LFM2 gebruikt een trainingsaanpak die de kleinere schaal van zijn modellen compenseert met structuur in plaats van met brute kracht. Belangrijke elementen zijn onder meer:
-
Voortraining van 10–12T tokens en nog een extra 32K-context midden in de trainingsfasewaardoor het bruikbare contextvenster van het model wordt uitgebreid zonder de rekenkundige overhead te exploderen.
-
EEN ontkoppelde Top-K kennisdistillatiemaatregel dat omzeilt de instabiliteit van standaard KL-destillatie wanneer leraren slechts gedeeltelijke logits verstrekken.
-
EEN post-workoutreeks in drie stappen—SFT, op lengte genormaliseerde voorkeursafstemming en modelinterleaving — ontworpen om het volgen van instructies en het gedrag van gereedschapsgebruik betrouwbaarder te maken.
Voor zakelijke AI-ontwikkelaars is de implicatie dat LFM2-modellen zich minder gedragen als ‘kleine LLM’s’ en meer als praktische agenten die gestructureerde formaten kunnen volgen, zich kunnen conformeren aan JSON-schema’s en chatstromen met meerdere beurten kunnen beheren. Veel open modellen van vergelijkbare omvang falen niet vanwege een gebrek aan redenering, maar vanwege het rigide vasthouden aan instructiesjablonen. Het post-workout LFM2-recept richt zich rechtstreeks op deze ruwe randen.
Met andere woorden: Liquid AI geoptimaliseerd voor kleine modellen operationele betrouwbaarheidniet alleen scoreborden.
Multimodaliteit ontworpen voor apparaatbeperkingen, niet voor laboratoriumdemo’s
De LFM2-VL- en LFM2-Audio-varianten weerspiegelen een andere verschuiving: gebouwd rond multimodaliteit symbolische efficiëntie.
In plaats van een enorme visietransformator rechtstreeks in een LLM in te bedden, verbindt de LFM2-VL een SigLIP2-encoder via een connector die het aantal visuele tokens via PixelUnshuffle op agressieve wijze vermindert. Invoer met hoge resolutie activeert automatisch dynamische tegels, waardoor tokenbudgetten beheersbaar blijven, zelfs op mobiele hardware. LFM2-Audio maakt gebruik van een tweedelig audiopad – één voor insluitingen, één voor generatie – en ondersteunt real-time of spraak-naar-spraak-transcriptie op bescheiden CPU’s.
Voor enterprise-platformarchitecten wijst dit ontwerp op een praktische toekomst waarin:
-
het begrijpen van documenten vindt rechtstreeks plaats op eindpunten zoals veldapparatuur;
-
audiotranscriptie en spraakagenten worden lokaal uitgevoerd om aan de privacy te voldoen;
-
multimodale agenten werken binnen vaste latentie-enveloppen zonder gegevens buiten het apparaat te streamen.
De bottom line is hetzelfde: multimodale mogelijkheden zonder dat een GPU-farm nodig is.
Ophaalmodellen die zijn gebouwd voor agentsystemen, niet voor verouderde zoekopdrachten
LFM2-ColBERT breidt het ophalen van late interactie uit tot een footprint die klein genoeg is voor bedrijfsimplementaties die meertalige RAG nodig hebben, zonder de overhead van gespecialiseerde vector-DB-versnellers.
Dit is vooral van belang nu organisaties een vloot agenten beginnen te orkestreren. Snel lokaal ophalen (dat op dezelfde hardware draait als het redeneringsmodel) vermindert de latentie en biedt een beheervoordeel: documenten verlaten nooit de apparaatgrens.
Samen laten de VL-, Audio- en ColBERT-varianten de LFM2 zien als een modulair systeem, en niet als één model.
De nieuwe blauwdruk voor hybride enterprise AI-architecturen
Voor alle varianten schetst het LFM2-rapport impliciet hoe de zakelijke AI-stack van morgen eruit zal zien: hybride lokale cloudorkestratiewaar kleine, snelle modellen die op apparaten werken, tijdkritische perceptie-, opmaak-, tool-aanroep- en beoordelingstaken afhandelen, terwijl grotere modellen in de cloud indien nodig zwaarwegende redeneringen bieden.
Hier komen verschillende trends samen:
-
Kostenbeheersing. Door routinematige inferentie lokaal uit te voeren, vermijdt u onvoorspelbare cloudfacturering.
-
Latentiedeterminisme. TTFT en decoderingsstabiliteit zijn van belang in de workflows van agenten; op het apparaat elimineert netwerkjitter.
-
Bestuur en naleving. Lokale uitvoering vereenvoudigt de verwerking van PII, de opslag van gegevens en de controleerbaarheid.
-
Weerstand. Agentsystemen worden langzamerhand slechter als het cloudpad niet meer beschikbaar is.
Bedrijven die deze architecturen adopteren, zullen kleine modellen op apparaten waarschijnlijk beschouwen als het ‘controlevlak’ van agentische workflows, terwijl grote cloudmodellen fungeren als versnellers op aanvraag.
LFM2 is tot nu toe een van de duidelijkste open source-fundamenten voor die controlelaag.
De strategische conclusie: AI op het apparaat is nu een ontwerpkeuze, geen compromis
Organisaties die AI-mogelijkheden bouwen, hebben jarenlang geaccepteerd dat ‘echte AI’ cloudgevolgtrekking vereist. LFM2 betwist die veronderstelling. De modellen presteren competitief op het gebied van redeneren, het volgen van instructies, meertalige taken en RAG – terwijl ze aanzienlijke latentiewinsten behalen in vergelijking met andere open kleine modelfamilies.
Voor CIO’s en CTO’s die de roadmaps voor 2026 finaliseren, is de implicatie direct: kleine, open modellen op de unit zijn nu sterk genoeg om een aanzienlijk deel van de productielast te dragen.
LFM2 zal de grenswolkmodellen voor grensschaalredenering niet vervangen. Maar het biedt iets waar bedrijven aantoonbaar meer van nodig hebben: een reproduceerbare, open en operationeel haalbare basis voor agentsystemen die overal kunnen worden uitgevoerdvan telefoons tot industriële eindpunten tot beveiligde faciliteiten met luchtgaten.
In het bredere landschap van enterprise AI is LFM2 niet zozeer een onderzoeksmijlpaal, maar eerder een teken van architectonische convergentie. De toekomst is geen wolk of rand; ze werken allebei samen. En releases als LFM2 bieden de bouwstenen voor organisaties die bereid zijn de hybride toekomst met opzet te bouwen in plaats van per ongeluk.



