Home Nieuws MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model –...

MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model – voor 1/20 van de prijs

13
0
MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een 30B-model – voor 1/20 van de prijs

Om zich aan te sluiten bij een groeiend aantal kleinere, krachtige redeneermodellen is MiroThinker 1.5 van MiroMind, met slechts 30 miljard parameters, vergeleken met de honderden miljarden of biljoenen die worden gebruikt door toonaangevende Basic Large Language Models (LLM’s).

Maar MiroThinker 1.5 onderscheidt zich van deze mindere redeneringen om één belangrijke reden: het biedt agentische onderzoeksmogelijkheden die kunnen wedijveren met concurrenten met biljoen parameters, zoals Zoals K2 En Diepzoekentegen een fractie van de sluitingskosten.

De release markeert een mijlpaal in het streven naar effectieve, inzetbare AI-agenten. Bedrijven zijn lange tijd gedwongen te kiezen tussen dure API-aanroepen naar grensmodellen of gecompromitteerde lokale prestaties. MiroThinker 1.5 biedt een derde manier: modellen met open gewicht die speciaal zijn ontworpen voor langdurig gereedschapsgebruik en redeneren in meerdere stappen.

Een van de grootste trends die in de sector opduikt, is de verschuiving van zeer gespecialiseerde agenten naar meer algemene agenten. Tot voor kort was deze optie grotendeels beperkt tot propriëtaire modellen. De MiroThinker 1.5 vertegenwoordigt een serieuze open gewichtskandidaat op dit gebied. Zorg voor de mijne YouTube-video daarop hieronder.

Verminderd risico op hallucinaties door verifieerbare redenering

Voor IT-teams die de AI-implementatie evalueren, blijven hallucinaties de belangrijkste barrière voor het gebruik van open modellen in de productie. MiroThinker 1.5 pakt dit aan via wat MiroMind de ‘wetenschappermodus’ noemt: een fundamentele architecturale verschuiving in de manier waarop het model met onzekerheid omgaat.

In plaats van statistisch plausibele antwoorden te genereren op basis van herinnerde patronen (de hoofdoorzaak van de meeste hallucinaties), is MiroThinker getraind om een ​​verifieerbare onderzoekscyclus uit te voeren: hypothesen voorstellen, externe bronnen op zoek gaan naar bewijs, inconsistenties identificeren, conclusies herzien en opnieuw verifiëren. Tijdens de training wordt het model expliciet gestraft voor uitvoer met een hoog vertrouwensniveau zonder bronondersteuning.

Het praktische gevolg voor de implementatie in ondernemingen is controleerbaarheid. Wanneer MiroThinker een antwoord geeft, kan het zowel de redenering als de externe bronnen die het heeft geraadpleegd laten zien. Voor gereguleerde sectoren zoals de financiële dienstverlening, de gezondheidszorg en de juridische sector creëert dit een documentatiespoor dat op memorisatie gebaseerde modellen niet kunnen bieden. Complianceteams kunnen niet alleen beoordelen wat het model heeft geconcludeerd, maar ook hoe het daar is gekomen.

Deze aanpak vermindert ook het ‘veilige hallucinatie’-probleem dat veel voorkomt bij productie-AI-systemen. Het model is getraind om verificatie te zoeken in plaats van te extrapoleren als het onzeker is – een gedrag dat zich direct vertaalt in minder kostbare fouten.

Benchmarkprestaties: scoort boven zijn gewicht

Binnen dit raamwerk levert MiroThinker-v1.5-30B prestaties die vergelijkbaar zijn met modellen met tot 30x meer parameters, inclusief het Kimi-K2-Thinking-model met biljoen parameters.

Op BrowseComp-ZH, een belangrijke benchmark voor webonderzoeksmogelijkheden, presteerde het 30B-model zelfs beter dan zijn concurrent met biljoen parameters met een score van 69,8.

Grafiek die de prestaties toont van MiroMind’s nieuwe MiroThinker 1.5 30-miljard parametermodel vergeleken met grote open en closed source concurrenten op de BrowseComp Benchmark. Krediet: MiroMind

Het kostenverschil is minstens zo opmerkelijk. MiroMind meldt sluitingskosten van slechts $ 0,07 per oproep voor de 30B-variant – ongeveer een twintigste van de kosten van de Kimi-K2-Thinking – samen met snellere sluitingssnelheden.

Een grotere 235B-variant (met 22B actieve parameters in een mix van expertsarchitectuur) staat in de mondiale toplaag in meerdere benchmarks voor zoekagenten. In algemene agentische zoekevaluaties houden deze modellen stand tegenover systemen van DeepSeek V3.2, Minimax, GLM en Kimi-K2.

Tijdens het testen benadert het grotere model de Gemini 3 Pro op verschillende benchmarks en komt het dichter bij GPT-5-klasse systemen dan het aantal parameters doet vermoeden. Hoewel heuvelklimmen steeds vaker voorkomt, gaat het vooral om de algehele concurrentiekracht – en de MiroThinker staat zijn mannetje.

Uitgebreid gebruik van tools: Tot 400 tooloproepen per sessie

Het bepalende kenmerk van MiroThinker 1.5 is het aanhoudende gebruik van tools.

De modellen ondersteunen maximaal 256.000 tokens aan context en claimen ondersteuning voor maximaal 400 tooloproepen per sessie – een cruciale vereiste voor complexe onderzoeksworkflows waarbij uitgebreide informatieverzameling, synthese en kruiscontrole betrokken zijn.

Dit plaatst MiroThinker stevig in de nieuwe categorie van agentmodellen die zijn ontworpen voor autonome taakvoltooiing in plaats van vraag-en-antwoord in één keer. Praktische toepassingen zijn onder meer diepgaande onderzoeksworkflows, contentpijplijnen, het genereren van rapporten en uitvoer in podcaststijl, vergelijkbaar met NotebookLM.

Trainingsinnovatie: tijdgevoelige sandbox

Een andere belangrijke innovatie in MiroThinker 1.5 is de tijdgevoelige trainingssandbox.

Traditionele modeltraining werkt vanuit wat MiroMind omschrijft als een ‘Godsperspectief’, waarbij het model toegang heeft tot eindige resultaten binnen statische datasets, waardoor inzichten achteraf ontstaan. De training van MiroThinker neemt dat voordeel weg.

Tijdens de training kan het model alleen communiceren met informatie die vóór een bepaald tijdstempel is gepubliceerd, waardoor toekomstige lekkage wordt voorkomen en het wordt gedwongen te redeneren onder realistische omstandigheden van onvolledige informatie.

De pijplijn combineert gecontroleerde verfijning met versterkend leren met behulp van verifieerbare beloningen via Group Relative Policy Optimization (GRPO), een geavanceerd versterkend leeralgoritme gepopulariseerd door DeepSeek, dat het model aanmoedigt om op het juiste moment de juiste tool te kiezen.

Deze aanpak is vooral relevant voor zakelijk gebruik, waar modellen moeten redeneren over evoluerende situaties in plaats van zich statische feiten te herinneren.

Praktische implementatieoverwegingen

Voor IT-teams die implementatie overwegen, zijn de hardwarevereisten nog steeds van belang. Zelfs het 30B-model vereist een aanzienlijke hoeveelheid GPU-geheugen, en kleinere opstellingen kunnen problemen hebben.

Een voordeel is compatibiliteit. MiroThinker draait op vLLM-servers met OpenAI-compatibele API-eindpunten, waardoor het gemakkelijker wordt om te integreren in bestaande toolchains en workflows voor het aanroepen van functies als drop-in vervanging.

Beide modelgroottes zijn beschikbaar onder de Hugging Face-tolerante, ondernemingsvriendelijke MIT-licentie, en er is een online demo beschikbaar voor evaluatie. De permissieve licentie neemt belangrijke barrières voor interne implementatie en afstemming weg.

Het grotere plaatje: interactief schalen vs. parameterschaling

MiroThinker 1.5 arriveert nu de industrie geconfronteerd wordt met de grenzen van traditionele schaalwetten. Grotere modellen garanderen niet langer betere prestaties in de echte wereld. Zoals kunstmatige intelligentie heeft opgemerkt, zijn veel benchmarks verzadigd, waardoor de industrie wordt gedwongen tot evaluaties op basis van economisch nut in plaats van alleen op abstracte redeneringen.

De focus van MiroMind ligt op interactief schalen – het verbeteren van de capaciteit door diepere gereedschapsinteractie in plaats van steeds grotere aantallen parameters. Als dit correct is, kan dit geavanceerde agenten mogelijk maken op een infrastructuur die niet afhankelijk is van dure grens-API’s.

Het bedrijf, opgericht door Tianqiao Chen en AI-onderzoeker Jifeng Dai, beschrijft zijn missie als het bouwen van ‘Native Intelligence’ – AI die redeneert door interactie, niet door het hoofd.

Of deze aanpak dominant wordt of een gespecialiseerde niche blijft, is nog steeds een open vraag. Maar voor bedrijven die worstelen met de afweging tussen kosten en capaciteit biedt MiroThinker 1.5 een overtuigend datapunt: soms is het belangrijker om een ​​model te leren hoe het moet onderzoeken dan het te leren alles te onthouden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in