Home Nieuws Het team achter continue batching zegt dat je inactieve GPU’s gevolgtrekkingen moeten...

Het team achter continue batching zegt dat je inactieve GPU’s gevolgtrekkingen moeten uitvoeren en niet in het donker moeten zitten

2
0
Het team achter continue batching zegt dat je inactieve GPU’s gevolgtrekkingen moeten uitvoeren en niet in het donker moeten zitten

Elk GPU-cluster heeft dode tijd. De trainingstaken zijn voltooid, de werkdruk verschuift en de hardware is donker, terwijl de stroom- en koelingskosten voortduren. Voor neocloud-operators zijn deze lege cycli verloren marge.

De voor de hand liggende oplossing is spot-GPU-markten: het verhuren van reservecapaciteit aan iedereen die het nodig heeft. Maar spot-instances betekenen dat de cloudleverancier nog steeds de huurder is, en dat ingenieurs die die capaciteit kopen nog steeds betalen voor de verwerking van ruwe gegevens zonder dat er een gevolgtrekking aan is verbonden.

Het antwoord van FriendliAI is anders: voer gevolgtrekkingen rechtstreeks uit op de ongebruikte hardware, optimaliseer de tokendoorvoer en deel de inkomsten met de operator. FriendliAI is opgericht door Byung-Gon Chun, de onderzoeker wiens artikel over continu batchen de basis werd voor vLLM, de open source inferentie-engine die tegenwoordig in de meeste productie-implementaties wordt gebruikt.

Chun heeft meer dan tien jaar als professor aan de Seoul National University onderzoek gedaan naar de efficiënte uitvoering van grootschalige machine learning-modellen. Dit onderzoek leverde een artikel op met de naam Orkadie continue batching introduceerde. De techniek verwerkt afsluitverzoeken dynamisch in plaats van te wachten tot een vaste batch is gevuld voordat deze wordt uitgevoerd. Het is nu de industriestandaard en vormt het kernmechanisme van vLLM.

Deze week lanceert FriendliAI een nieuw platform genaamd InferenceSense. Net zoals uitgevers Google AdSense gebruiken om geld te verdienen met onverkochte advertentievoorraad, kunnen neocloud-operators InferenceSense gebruiken om ongebruikte GPU-cycli te vullen met betaalde AI-inferentieworkloads en een deel van de tokeninkomsten te innen. De eigen taken van de operator hebben altijd voorrang: zodra een planner een GPU terugwint, geeft InferenceSense toe.

“Wat wij bieden is dat in plaats van GPU’s inactief te laten, ze door gevolgtrekkingen geld te verdienen met die inactieve GPU’s”, vertelde Chun aan VentureBeat.

Hoe een laboratorium van de Seoul National University de motor in vLLM bouwde

Chun richtte FriendliAI op in 2021, voordat het grootste deel van de industrie de focus had verlegd van training naar conclusies. Het belangrijkste product van het bedrijf is een speciale eindpuntservice voor AI-startups en ondernemingen die open modellen gebruiken. FriendliAI wordt ook aangeboden als een implementatieoptie op Hugging Face naast Azure, AWS en GCP en ondersteunt momenteel meer dan 500.000 open gewichtsmodellen van het platform.

InferenceSense breidt deze inferentie-engine nu uit naar het capaciteitsprobleem waarmee GPU-operators tussen workloads worden geconfronteerd.

Hoe het werkt

InferenceSense draait bovenop Kubernetes, dat de meeste neocloud-operators al gebruiken voor resource-orkestratie. Een operator wijst een pool van GPU’s toe aan een Kubernetes-cluster beheerd door FriendliAI – en geeft aan welke knooppunten beschikbaar zijn en onder welke voorwaarden ze kunnen worden teruggevorderd. Inactieve registratie loopt via Kubernetes zelf.

“We hebben onze eigen orkestrator die draait op de GPU’s van deze neocloud- of gewoon cloud-leveranciers,” zei Chun. “We maken zeker gebruik van Kubernetes, maar de software die er bovenop draait is een zeer geoptimaliseerde inferentiestapel.”

Wanneer GPU’s inactief zijn, creëert InferenceSense geïsoleerde containers die betaalde inferentiewerklasten leveren op open-weight-modellen, waaronder DeepSeek, Qwen, Kimi, GLM en MiniMax. Wanneer de operatorplanner hardware terug nodig heeft, worden de gevolgtrekkingswerklasten vermeden en worden GPU’s geretourneerd. FriendliAI zegt dat de overdracht binnen enkele seconden plaatsvindt.

De vraag wordt verzameld via de directe klanten van FriendliAI en via aggregators voor gevolgtrekkingen zoals OpenRouter. De exploitant levert de capaciteit; FriendliAI verzorgt de vraagpijplijn, modeloptimalisatie en de serveerstapel. Er zijn geen kosten vooraf en geen minimale verplichtingen. Een realtime dashboard laat operators zien welke modellen actief zijn, tokens die worden verwerkt en inkomsten.

Waarom de tokendoorvoer de ruwe capaciteitshuur overtreft

Op spot-GPU-markten van providers als CoreWeave, Lambda Labs en RunPod verhuurt de cloudleverancier zijn eigen hardware aan een derde partij. InferenceSense draait op hardware die de neocloud-operator al bezit, waarbij de operator bepaalt welke knooppunten deelnemen en vooraf planningsafspraken maakt met FriendliAI. Het verschil is belangrijk: spotmarkten genereren inkomsten uit capaciteit, InferenceSense genereert inkomsten uit tokens.

Tokendoorvoer per GPU-tijd bepaalt hoeveel InferenceSense daadwerkelijk kan verdienen tijdens inactieve perioden. FriendliAI beweert dat de engine twee tot drie keer de doorvoer levert van een standaard vLLM-implementatie, hoewel Chun opmerkt dat dit aantal varieert per type werklast. De meeste concurrerende inferentiestapels zijn gebouwd op op Python gebaseerde open source-frameworks. De engine van FriendliAI is geschreven in C++ en gebruikt aangepaste GPU-kernen in plaats van Nvidia’s cuDNN-bibliotheek. Het bedrijf heeft zijn eigen modelrepresentatielaag gebouwd voor het partitioneren en uitvoeren van modellen over hardware heen, met zijn eigen implementaties van speculatieve decodering, kwantisering en KV-cachebeheer.

Omdat de engine van FriendliAI meerdere tokens per GPU-uur verwerkt dan een standaard vLLM-stack, zouden operators meer inkomsten per ongebruikte cyclus moeten genereren dan ze zouden kunnen door hun eigen sluitingsservice op te zetten.

Wat AI-ingenieurs die gevolgtrekkingskosten evalueren, zouden moeten zien

Voor AI-ingenieurs die evalueren waar deductiewerklasten moeten worden uitgevoerd, komt de beslissing tussen neocloud en hyperscaler doorgaans neer op kosten en beschikbaarheid.

InferenceSense voegt een nieuwe overweging toe: als neoclouds door inferentie geld kunnen verdienen met inactieve capaciteit, hebben ze meer financiële prikkels om tokenprijzen concurrerend te houden.

Dat is geen reden om vandaag de dag infrastructuurbeslissingen te veranderen; het staat nog in de kinderschoenen. Maar ingenieurs die de totale inferentiekosten bijhouden, moeten in de gaten houden of de adoptie van platforms als InferenceSense door de neocloud een neerwaartse druk uitoefent op de API-prijzen voor modellen als DeepSeek en Qwen in de komende twaalf maanden. “Als we efficiëntere leveranciers hebben, zullen de totale kosten dalen”, zei Chun. “Met InferenceSense kunnen we deze modellen goedkoper maken.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in