Home Nieuws Weibo’s nieuwe open source AI-model VibeThinker-1.5B presteert beter dan $7.800 DeepSeek-R1 na...

Weibo’s nieuwe open source AI-model VibeThinker-1.5B presteert beter dan $7.800 DeepSeek-R1 na trainingsbudget

16
0

Nog een dag eind 2025, opnieuw een indrukwekkend resultaat van een Chinees bedrijf op het gebied van open source kunstmatige intelligentie.

Chinees sociaal netwerkbedrijf De AI-afdeling van Weibo heeft onlangs zijn open source VibeThinker-1.5B uitgebracht– een groot taalmodel (LLM) met 1,5 miljard parameters, een verfijnde variant van een rivaliserend Chinees technologiebedrijf Alibaba’s Qwen2.5-Math-1.5B.

Het is nu gratis te downloaden en te gebruiken door onderzoekers en bedrijfsontwikkelaars, zelfs voor commerciële doeleinden, onder een permissieve MIT-licentie op Knuffel gezicht, GitHub En Modelbereikmet één technisch rapport over vrije toegang tot de wetenschappelijke publicatiesite arxiv.org.

En toch behaalt de VibeThinker-1.5B, ondanks zijn compacte formaat, de beste redeneerprestaties op het gebied van wiskunde en coderen, waarbij hij concurreert met modellen die honderden keren zo groot zijn, en zelfs de beroemde R1 van de Chinese rivaal DeepSeek overtreft, die eerder dit jaar viraal ging (een model met 671 miljard parameters) op het gebied van formeel redeneren.

Het overschaduwt verder het Magistral Medium van Mistral AI en houdt stand tegenover Claude Opus 4 van Anthropic en het gpt-oss-20B Medium van OpenAI, terwijl het allemaal een fractie van de infrastructuur en investeringen vereist.

Het doet dit ook nadat het een post-opleiding heeft gevolgd met een budget van slechts $7800 USD voor computerbronnen (3900 GPU-uren op Nvidia H800s) – veel minder dan de tientallen of zelfs honderdduizenden dollars die doorgaans nodig zijn om modellen van vergelijkbare of grotere schaal te verfijnen.

Houd er rekening mee dat dit niet de totale kosten van de ontwikkeling van het model zijn, maar: LLM’s worden in fasen getraind. Eerst komt de voortraining, waarbij het model de basistaalstructuur en algemene kennis leert door het volgende woord te voorspellen in grote hoeveelheden tekst van internet, boeken en artikelen. Dit geeft het vloeiendheid, maar niet veel gevoel voor het volgen van instructies of het voeren van een gesprek

Daarna volgt de post-training, waarbij gebruik wordt gemaakt van veel kleinere datasets van hogere kwaliteit (meestal verzamelingen voorbeeldvragen, aanwijzingen en vakkundig geschreven antwoorden) om het model te leren hoe behulpzaam te reageren, door problemen te redeneren en zich aan te passen aan menselijke verwachtingen. Toch is de kosteneffectiviteit van Weibo na training op de VibeThinker-1.5B opmerkelijk en moet worden geprezen.

De open source-release roept aannames op over parameterschaling, rekenintensiteit en de minimaal haalbare grootte voor hoogwaardige LLM’s.

Een andere trainingsaanpak: spectrum-naar-signaal

De VibeThinker-1.5B dankt zijn prestaties niet aan schaalvergroting, maar aan het trainingsraamwerk erachter: het Spectrum-to-Signal Principle (SSP).

In plaats van een model uitsluitend te optimaliseren voor correctheid bij één antwoord (Pass@1), ontkoppelt het SSP-framework begeleide fijnafstemming (SFT) en versterkend leren (RL) in twee afzonderlijke fasen met verschillende doelen:

  • SFT (“Spectrumfase”): Het model is getraind om de diversiteit van mogelijke correcte antwoorden te maximaliseren, waardoor de Pass@K-score wordt verbeterd. Dit levert een breed scala aan plausibele oplossingen op.

  • RL (“Signaalfase”): Een leersysteem voor versterking in de tweede fase (genaamd MaxEnt-Guided Policy Optimization of MGPO) wordt gebruikt om de meest correcte paden uit deze diverse oplossingspool te identificeren en te versterken. MGPO geeft prioriteit aan problemen waarbij het model het meest onzeker is, door gebruik te maken van op entropie gebaseerde weging om het leren te focussen.

De auteurs beweren dat deze scheiding kleine modellen in staat stelt de redeneerruimte efficiënter te verkennen, waardoor signaalversterking wordt bereikt zonder afhankelijk te zijn van enorme aantallen parameters.

VibeThinker-1.5B maakt overtuigend duidelijk dat het vertrouwen van de industrie op het schalen van parameters als de enige weg naar betere redeneerprestaties achterhaald kan zijn.

Door gebruik te maken van een diversiteitsgerichte trainingspijplijn heeft WeiboAI aangetoond dat kleinere, beter toegankelijke modellen systemen van miljarden dollars kunnen evenaren en zelfs beter kunnen presteren bij logica-zware taken.

De lage hulpbronnenvoetafdruk is een van de belangrijkste aspecten van de VibeThinker-1.5B. Met minder dan $8.000 zijn de post-trainingskosten 30-60 keer lager dan die van modellen als de DeepSeek R1 en MiniMax-M1, die tussen de $294.000 en $535.000 kosten om te trainen.

Prestaties tussen domeinen

Ondanks zijn kleine formaat levert de VibeThinker-1.5B domeinoverschrijdende redenering die beter presteert dan veel grotere open source en commerciële modellen:

Model

AIME25

LiveCodeBench v6

GPQA-diamant

VibeThinker-1.5B

74,4

51.1

46,7

GPT-OSS-20B-Medium

72.1

54,9

66,0

Sluit werk af 4

69,2

56,6

79,6

MiniMax M1 (456B)

74,6

62,3

69,2

DeepSeek R1 (671B)

70,0

65,9

71,5

Kimi K2 (1,09T)

49,5

53,7

75,1

VibeThinker werd vergeleken met zowel redeneergerichte modellen (Magistral, Claude, OpenAI o3-mini) als niet-redenerende LLM’s (GPT-4.1, Kimi K2, DeepSeek V3). In de benchmarks voor gestructureerd redeneren presteerde het model consistent beter dan niet-redeneringsmodellen, ongeacht de grootte:

  • Op AIME24 (wiskunde) versloeg het de Kimi K2 (1,09T) met meer dan 10 punten (80,3 versus 69,6).

  • Op LiveCodeBench v6 presteerde het beter dan de Claude Opus 4 (51,1 vs. 47,4).

  • Op GPQA scoorde het lager dan GPT-4.1 en Claude, maar verdubbelde het basismodel nog steeds (van 16,4 naar 46,7).

Dit ondersteunt de bewering van de auteurs dat omvang niet de enige weg naar redeneervermogen is; met een goed trainingsontwerp kunnen kleinere modellen de prestaties van veel grotere systemen bij gerichte taken evenaren of zelfs overtreffen.

In het bijzonder bereikt het pariteit met modellen die honderden keren groter zijn op het gebied van wiskunde en code, hoewel het achterblijft op het gebied van algemene kennisredenering (GPQA), waar grotere modellen een voorsprong behouden.

Dit duidt op een potentiële wisselwerking op specialisatie: hoewel VibeThinker uitblinkt in gestructureerde logische taken, heeft het minder capaciteit voor uitgebreide encyclopedische herinnering, een bekende beperking van kleinere architecturen.

Gids voor adoptie door ondernemingen

De release bevat aanbevolen inferentie-instellingen (temperatuur = 0,6, top_p = 0,95, max. tokens = 40960).

Het model is klein genoeg om te worden ingezet op edge-apparaten, waaronder mobiele telefoons en in voertuigen ingebouwde systemen, terwijl de end-to-end-kosten naar schatting 20 tot 70 keer goedkoper zijn dan bij grote modellen.

Dit positioneert de VibeThinker-1.5B niet simpelweg als een onderzoeksprestatie, maar als een potentiële basis voor kosteneffectieve, lokaal inzetbare redeneersystemen.

Weibo’s strategie en marktpositie

Weibo werd in 2009 gelanceerd door Sina Corporation en blijft een hoeksteen van het Chinese socialemedia-ecosysteem. Het platform wordt vaak omschreven als de Chinese versie van X (voorheen Twitter) en combineert microblogging, multimedia-inhoud en trending topic-functies met een regelgevingsomgeving die wordt gevormd door streng toezicht van de overheid.

Ondanks het feit dat er maandelijks 600 miljoen actieve gebruikers zijn (meer dan het dubbele van X), beleggers zijn niet optimistisch over het groeipotentieel van de advertentie-inkomsten op de korte termijn, en Weibo heeft te maken met toenemende concurrentie van video-first-platforms zoals Douyin, die jongere gebruikers aantrekken en de tijd die ze elders doorbrengen vergroten.

Als reactie daarop heeft Weibo zich toegelegd op het genereren van inkomsten uit de creatieve economie, livestreaming en verticale video, waarbij tools zijn toegevoegd voor de betrokkenheid van influencers, e-commerce-integratie en rijkere analyses voor merken.

De rol van het platform als digitale publieke ruimte maakt het ook tot een focus van toezichthoudend toezicht. De Chinese autoriteiten blijven druk uitoefenen op kwesties variërend van contentbeheer tot gegevensbeveiliging. In september 2025, Weibo was een van de platforms die in officiële waarschuwingen werden genoemdDat onderstreept de voortdurende blootstelling aan politieke risico’s.

Weibo’s drang naar AI R&D – geïllustreerd door de release van VibeThinker-1.5B – duidt op een verschuiving in ambitie. Weibo is niet alleen een mediaplatform, maar positioneert zichzelf ook als speler in de volgende fase van de Chinese AI-ontwikkeling door zijn kapitaalreserves, gegevens over gebruikersgedrag en interne onderzoekscapaciteit te gebruiken om aangrenzende technische domeinen te onderzoeken.

Wat het betekent voor de technische besluitvormers van het bedrijf

Voor technische leiders en zakelijke AI-teams heeft de release van VibeThinker praktische implicaties voor alles, van orkestratiepijplijnen tot kostenmodellering.

Een model met 1,5 miljard parameters dat beter presteert dan 100x grotere modellen op het gebied van wiskunde en programmeertaken bespaart niet alleen berekeningen, maar verandert ook de architectonische balans. Het maakt LLM-inferentie op een beperkte infrastructuur mogelijk, vermindert de latentie aan de rand en verlaagt de toegangsdrempel voor applicaties die anders API-toegang tot gesloten modellen op grensschaal nodig zouden hebben gehad.

Dit is van belang voor ML-managers van ondernemingen die redeneringsvaardige agenten in bestaande systemen willen implementeren, of voor platformeigenaren die de taak hebben om LLM’s te integreren in geautomatiseerde workflows.

Het spreekt ook degenen aan die versterking uitvoeren en leren van menselijke feedback (RLHF) pijplijnen of die gevolgtrekkingsoptimalisatie beheren in hybride cloudomgevingen.

De post-trainingsmethodologie van het model – met name de op entropie gerichte benadering van versterkend leren – biedt een routekaart voor teams die kleinere controlepunten willen verfijnen in plaats van te vertrouwen op grootschalige voortraining.

De stappen op het gebied van transparantie en gegevensopschoning van VibeThinker richten zich ook op een andere opkomende prioriteit in zakelijke AI: controleerbaarheid. Hoewel de prestaties op algemene kennistests nog steeds grootschalige modellen volgen, maakt de taakspecifieke betrouwbaarheid het een aantrekkelijke kandidaat voor gecontroleerde omgevingen waar correctheid belangrijker is dan dekking.

Kortom, de VibeThinker-1.5B is niet alleen een onderzoeksmijlpaal – het is een sterke kandidaat voor praktisch zakelijk gebruik, implementatie en leren. Het suggereert dat een nieuwe klasse van compacte, voor redeneren geoptimaliseerde modellen haalbaar is voor zakelijk gebruik, voorheen het domein van veel grotere systemen. Voor organisaties die een evenwicht proberen te vinden tussen kosten, latentie, interpretatie en controle, is het een geweldige nieuwe optie voor de lange, groeiende lijst van Chinese open source-aanbiedingen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in