Home Nieuws TII’s Falcon H1R 7B kan modellen verkennen die tot zeven keer zo...

TII’s Falcon H1R 7B kan modellen verkennen die tot zeven keer zo groot zijn – en hij is (grotendeels) open

26
0
TII’s Falcon H1R 7B kan modellen verkennen die tot zeven keer zo groot zijn – en hij is (grotendeels) open

De afgelopen twee jaar was de heersende logica in generatieve AI er een van brute kracht: als je beter redeneren wilt, heb je een groter model nodig.

Terwijl ‘kleine’ modellen (onder de 10 miljard parameters) capabele gesprekspartners zijn geworden, zijn ze historisch gezien afgebrokkeld wanneer hen werd gevraagd logische deductie in meerdere stappen of complexe wiskundige bewijzen uit te voeren.

Tegenwoordig daagt het Technology Innovation Institute (TII) in Abu Dhabi deze schaalvergroting van de wetgeving uit de release van de Falcon H1R 7B.

TII verlaat de pure Transformer-orthodoxie ten gunste van een hybride architectuur en beweert een model van 7 miljard parameters te hebben gebouwd dat niet alleen concurreert, maar ook beter presteert dan concurrenten die bijna zeven keer zo groot zijn – inclusief de 32B- en 47B-varianten van Alibaba’s Qwen en Nvidia’s Nemotron.

De release markeert een significante verschuiving in het open-gewicht-ecosysteem, waardoor het slagveld verschuift van het tellen van ruwe parameters naar architecturale efficiëntie en het schalen van gevolgtrekkingstijd.

De volledige de modelcode is nu beschikbaar op Hugging Face en kan door individuen worden getest in een live demo aan het einde van Valk-chat (een chatbot-ervaring). TII publiceerde verder een ogenschijnlijk behoorlijk uitgebreid document technisch rapport over de aanpak en trainingsmethodologie voor de Falcon H1 7B.

Verder gaan dan de standaard LLM-technologie, de Transformer

Het bepalende kenmerk van de Falcon H1R 7B is zijn ‘hybride’ ruggengraat. De meeste moderne LLM’s vertrouwen uitsluitend op de Transformer-architectuur, die voorspelbaar schaalt, maar last heeft van een hoge geheugenoverhead bij het verwerken van lange reeksen.

De Falcon H1R 7B integreert Mamba, een state-space model (SSM) architectuur, samen met de standaard Transformer-aandachtslaag.

Oorspronkelijk ontwikkeld door onderzoekers Albert Gu en Tri Dao aan de Carnegie Mellon University en Princeton University, werd Mamba voor het eerst geïntroduceerd in de paper “Mamba: lineaire tijdreeksmodellering met selectieve toestandsruimten“gepubliceerd op 1 december 2023.

De architectuur verwerkt datareeksen anders dan Transformers: terwijl Transformers elk stukje data met elk ander stuk vergelijkt (kwadratische schaling), verwerkt Mamba tokens opeenvolgend, waardoor het enorme hoeveelheden informatie kan verwerken met lineaire schaling en aanzienlijk lagere rekenkosten.

Deze combinatie pakt een van de meest hardnekkige knelpunten bij de implementatie van redeneermodellen aan: de kosten van ‘denken’. Redeneringsmodellen vereisen dat iemand lange ‘gedachteketens’ genereert – stapsgewijze interne monologen – voordat hij tot een antwoord komt. Voor standaardtransformatoren exploderen deze lange correlaties de rekenkosten.

Volgens het technische rapport van TII zorgt de hybride aanpak ervoor dat de Falcon H1R 7B een hoge doorvoercapaciteit kan behouden, zelfs als de responsduur toeneemt. Bij een batchgrootte van 64 verwerkt het model ongeveer 1.500 tokens per seconde per GPU – bijna tweemaal de snelheid van het concurrerende Qwen3 8B-model.

Benchmarkprestaties: een verbetering

In benchmarks gepubliceerd door TII is het verschil tussen de grootte en de prestaties van de Falcon H1R 7B groot. Op AIME 2025 leaderboard – een rigoureuze test van wiskundig redeneren – scoorde de Falcon H1R 7B 83,1%een resultaat dat de traditionele hiërarchie van modelgroottes verstoort.

Falcon-H1R 7B AIME 2025 benchmarkvergelijkingstabel. Krediet: TII

Terwijl het 7B-model uiteraard enorme eigen grenzen volgt, zoals GPT-5.2 (99,0%) en Gemini 3 Flitser (97,0%) ingeschakeld afzonderlijke kunstmatige analyse-index (gerund door de onafhankelijke organisatie met dezelfde naam, die de Falcon H1R 7B nog moet benchmarken), heeft het de kloof tussen “efficiënte” open gewichten en eigen systemen uit het middensegment effectief verkleind.

Kunstmatige analyse AIME 2025 benchmarkvergelijkingstabel

Kunstmatige analyse AIME 2025 benchmarkvergelijkingstabel. Krediet: kunstmatige analyse

  • Versla grotere “denkers”: Falcon H1R 7B (83,1%) presteert beter dan de parameter van 15 miljard Apriel-v1.6-Denker (82,7%) en de parameter 32 miljard OLMo 3 Denk na (73,7%), wat de bewering van TII bevestigt dat hybride architecturen grotere transformatoren kunnen overmeesteren.

  • Eigen beheerders gezocht: Het ligt op zeer korte afstand van Claude 4.5 sonnet (88,0%) en Amazon Nova 2.0 Lite (88,7%), wat erop wijst dat dit 7B-model voor specifieke, ingewikkelde workflows een levensvatbaar alternatief met lage latentie is voor dure commerciële API’s.

  • Beter presteren dan oudere reuzen: Op deze specifieke redeneermetriek klopt het beslissend, maar oudere architecturen zoals b.v. Mistral Groot 3 (38,0%) en Vlam 4 Maverick (19,3%), waarbij wordt benadrukt hoe gespecialiseerde redeneertraining (“Deep Think”) belangrijker is geworden dan ruwe schaal voor logische taken.

Andere belangrijke domeinwinnaars zijn onder meer:

  • Codering: Het verkregen model 68,6% op de LCB v6-benchmark is een score die volgens TII de hoogste is van alle geteste modellen, inclusief de modellen die vier keer zo groot zijn.

  • Algemene reden: Hoewel het domineert op het gebied van wiskunde en coderen, blijft de algehele redeneringsscore (49,48%) concurrerend, net onder de 14B- en 15B-parametermodellen, maar ruim boven vergelijkbare 8B-modellen.

Trainingstechnieken

De prestaties van de Falcon H1R 7B zijn niet alleen architectonisch; het komt voort uit een rigoureuze tweetrapstrainingspijplijn die is ontworpen om de redeneringsdichtheid te maximaliseren zonder het aantal parameters op te blazen, volgens Technisch rapport van TII op het model.

Fase 1: Koude start gecontroleerde fijnafstelling (SFT). Het model onderging een ‘koude start’-SFT op een samengestelde dataset die werd gedomineerd door wiskunde (56,8% van de tokens) en code (29,8%), met responslengtes die oplopen tot 48.000 tokens.

  • Moeilijkheidsbewust wegen: TII verwierp de standaardpraktijk om alle gegevens gelijk te behandelen. In plaats daarvan gebruikten ze een wegingsschema waarbij ‘harde’ problemen 1,25x tot 1,75x werden zwaarder, terwijl gemakkelijke problemen werden verkleind of volledig werden verwijderd om overfitting voor triviale taken te voorkomen.

  • Consistentie voor één leraar: Uit ablatiestudies is gebleken dat het combineren van redeneersporen uit meerdere ‘leraar’-modellen feitelijk de prestaties verslechtert als gevolg van tegenstrijdige redeneerstijlen. Als gevolg hiervan heeft TII gekozen voor een aanpak met één leraar, om de samenhangende interne logica te behouden.

  • Evenwichtige tokennormalisatie: Om de enorme variantie in reekslengtes (korte instructies versus enorme redeneerketens) aan te kunnen, introduceerde het team een ​​Balanced Data-Parallel Token Normalization-strategie. Deze techniek egaliseert de gradiëntbijdrage van elk token over GPU’s, waardoor wordt voorkomen dat rijen met kortere reeksen het verlies destabiliseren – een verandering die tijdens de training een consistente nauwkeurigheidsverbetering van 4-10% opleverde.

Fase 2: Versterkend leren via groepsrelatieve beleidsoptimalisatie (GRPO). Na SFT werd het model verfijnd met behulp van GRPO, een versterkend leeralgoritme dat correcte resultaten beloont zonder dat er een apart waardemodel nodig is.

  • “No-KL”-schakelaar: In afwijking van de standaard RLHF heeft TII de KL-divergentiestraf (bèta=0) volledig verwijderd. Hierdoor kon het model aanzienlijk afwijken van het fundamentele SFT-beleid, wat een agressieve verkenning van nieuwe redeneringen aanmoedigde.

  • Alleen wiskundecurriculum: Verrassend genoeg ontdekte TII dat training uitsluitend op wiskundige problemen tijdens de RL-fase een betere generalisatie opleverde over alle domeinen – inclusief code en wetenschap – dan gemengde strategieën. Ablaties toonden aan dat ‘alleen-code’-training de coderingsresultaten verbeterde, maar het algemene redeneren aantastte, terwijl op wiskunde gerichte RL de prestaties wereldwijd verbeterde.

TII heeft het model specifiek geoptimaliseerd voor Test-Time Scaling (TTS), een techniek waarbij een model meerdere redeneerpaden parallel genereert om de beste oplossing te vinden.

Het model maakt gebruik van Deep Think with Confidence (DeepConf), dat gebruikmaakt van de interne betrouwbaarheidsscore van het model om redeneringssporen van lage kwaliteit dynamisch te verwijderen.

  • Adaptief bijsnijden: Tijdens het genereren start het systeem een ​​”opwarmfase” van 16 sporen om een ​​vertrouwensbasislijn vast te stellen. Vervolgens worden daaropvolgende sporen agressief gefilterd en wordt elke keten beëindigd die onder het 10e percentiel van het basisvertrouwen valt.

  • Efficiëntiewinst: Deze methode creëert een nieuwe Pareto-grens voor implementatie. In benchmarktests behaalde de Falcon H1R 7B een nauwkeurigheid van 96,7% op AIME 25, terwijl het tokengebruik met 38% werd verminderd in vergelijking met de DeepSeek-R1-0528-Qwen3-8B-basislijn.

Licentie: Open voor commercieel gebruik, maar met voorwaarden

TII heeft de Falcon H1R 7B op maat uitgebracht Falcon LLM-licentie 1.0 gebaseerd op Apache 2.0 – maar met opmerkelijke wijzigingen – de belangrijkste daarvan: TII niet aanklagen, en het ook altijd crediteren.

Voor ontwikkelaars en startups is de licentie grotendeels toegestaan:

  • Royaltyvrij: Gebruikers kunnen het model commercieel uitvoeren, wijzigen en distribueren zonder TII te betalen.

  • Toeschrijving: Alle afgeleide werken (inclusief aanpassingen) moeten duidelijk vermelden: “(De naam van het werk) is gebouwd met behulp van Falcon LLM-technologie van het Technology Innovation Institute”.

In tegenstelling tot een pure Open Source Initiative (OSI)-licentie omvat de Falcon-licentie echter een strikt Acceptable Use Policy (AUP).

De licentie eindigt automatisch als het model wordt gebruikt om werk te creëren dat in strijd is met de AUP of als de gebruiker een octrooiprocedure tegen TII start.

Concreet verbiedt de AUP het gebruik van de Falcon H1R 7B of zijn derivaten voor:

  • Overtreding van wetten: Elk gebruik dat in strijd is met toepasselijke nationale, federale, provinciale, lokale of internationale wetten of voorschriften.

  • Schade aan minderjarigen of levende wezens: het uitbuiten, schaden of proberen uit te buiten of schade toe te brengen aan minderjarigen of levende wezens.

  • Desinformatie: het genereren of verspreiden van verifieerbare valse informatie met de bedoeling anderen schade te berokkenen.

  • Intimidatie: het belasteren, kleineren of anderszins lastigvallen van anderen.

De hybride golf: Nvidia, IBM, AI21 en Mistral

TII is niet de enige die op deze hybride toekomst gokt; de industrie evolueert steeds meer naar architecturen die de sterke punten van SSM’s en transformatoren combineren.

  • Nvidia onlangs debuteerde Nemotron 3-familie op 15 december 2025, waarbij een hybride mix van experts (MoE) en Mamba-Transformer-ontwerp wordt gebruikt om efficiënte agent-AI aan te sturen.

  • IBM lanceerde zijn Granit 4.0-familie op 2 oktober 2025, met behulp van een hybride Mamba-Transformer-architectuur om de geheugenvereisten met meer dan 70% te verminderen, terwijl de hoge prestaties op bedrijfsbenchmarks behouden blijven.

  • AI21 heeft deze weg gevolgd met zijn Jamba-modellen (Joint Attention en Mamba) en uitgever Jamba 1.5-familie op 22 augustus 2024 om agentische AI-mogelijkheden te vergroten via een hybride SSM-Transformer-aanpak.

  • Mistral kwam vroeg de kamer binnen Codestrale Mamba op 16 juli 2024, een model dat specifiek is geoptimaliseerd voor het sneller en langer genereren van code.

De Falcon H1R 7B vertegenwoordigt de nieuwste ontwikkeling in deze trend en is specifiek gericht op compacte redeneertaken in een compacte vormfactor.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in