Home Nieuws Kimi K2.6 stuurt agenten dagenlang aan en onthult de grenzen van de...

Kimi K2.6 stuurt agenten dagenlang aan en onthult de grenzen van de orkestratie van het bedrijf

2
0
Kimi K2.6 stuurt agenten dagenlang aan en onthult de grenzen van de orkestratie van het bedrijf

De meeste orkestratieframeworks zijn gebouwd voor agenten die binnen enkele seconden of minuten kunnen worden uitgevoerd. Nu zijn het agenten loopt op het uurs – en in sommige gevallen dagen – beginnen deze raamwerken te barsten.

Verschillende modelaanbieders, zoals Anthropic met Claude Code en OpenAI met Codex, introduceerden vroegtijdige ondersteuning voor agenten met een lange horizon via multisessietaken, subagenten en uitvoering op de achtergrond. Deze systemen gaan er echter soms van uit dat agenten nog steeds binnen begrensde workflows werken, zelfs als ze gedurende langere perioden actief zijn.

Open source-modelaanbieder Moonshot AI wil verder gaan dan dat met zijn nieuwe model, de Kimi K2.6.

Moonshot zegt dat het model is ontworpen voor continue uitvoering, met interne gebruiksscenario’s, waaronder agenten die urenlang draaien, en in één geval vijf dagen achter elkaar, waarbij de monitoring en incidentrespons autonoom worden afgehandeld.

Maar dit toenemende gebruik van dit type agent brengt een kritieke leemte in de orkestratie aan het licht: de meeste orkestratieframeworks zijn niet ontworpen voor dit soort continue, stateful uitvoering. Open source-modellen zoals Kimi K2.6, die afhankelijk zijn van agentzwermen, beweren dat hun orkestratiebenadering dicht in de buurt komt van het beheer van stateful agents.

De moeilijkheden bij het orkestreren van langlopende agenten

Hoewel het waar is dat sommige bedrijven liever hun eigen orkestratieframeworks in hun agent-ecosysteem brengen, erkennen modelaanbieders en agentplatforms dat het aanbieden van agentmanagement een concurrentievoordeel blijft.

Andere modelaanbieders zijn begonnen met het verkennen van langlopende agenten, waarvan vele via multi-sessietaken en uitvoering op de achtergrond. Claude Code van Anthropic orkestreert bijvoorbeeld agenten met een leidende agent die regisseert andere agenten op basis van een reeks gebruikersgerichte definities. OpenAI’s Codex loopt op dezelfde manier.

Kimi K2.6 benadert orkestratie met een verbeterde versie van zijn Agent Swarms, die in staat is om maximaal 300 subagenten te beheren “die 4.000 gecoördineerde stappen tegelijkertijd uitvoeren.” Moonshot AI schreef in een blogpost. Vergeleken met zowel Claude Code als Codex vertrouwt K2.6 op het model, in plaats van op vooraf gedefinieerde rollen, om de orkestratie te bepalen.

Kimi K2.6 is nu beschikbaar op Hugging Face via de API, Kimi Code en de Kimi-app.

Beoefenaars die experimenteren met lange-horizon-remedies zeggen dat de kwetsbaarheid dieper zit dan aanmoediging kan verhelpen.

Zoals huisarts Maxim Saplin het verwoordde een blogpost“Dat betekent niet dat subagenten nutteloos zijn. Het betekent dat de orkestratie nog steeds kwetsbaar is. Op dit moment voelt het meer als een product- en trainingsprobleem dan als iets dat je kunt oplossen door een voldoende strikte prompt te schrijven.”

Het probleem met langlevende agenten is dat het moeilijk is om hun toestand te behouden, vooral omdat hun omgeving blijft veranderen terwijl ze hun werk doen. De agent zou tijdens de uitvoering voortdurend verschillende tools en API’s aanroepen of toegang krijgen tot verschillende databases. De meeste huidige agenten, degenen die in één of twee uitvoeringen kunnen draaien, roepen verschillende tools aan, maar maximaal voor een minuut.

Mark Lambert, chief product officer bij ArmorCode, dat een zelfstandig beveiligingsplatform voor ondernemingen bouwt, vertelde VentureBeat in een e-mail dat de governancekloof de implementatie al overtreft.

“Deze agentsystemen kunnen nu sneller code- en systeemwijzigingen genereren dan de meeste organisaties deze kunnen beoordelen, herstellen of beheren. Hiervoor is meer nodig dan alleen extra scannen. Organisaties zullen sterkere AI-governance nodig hebben die de context, prioritering en verantwoordelijkheid biedt die teams nodig hebben om Kimi en andere door AI gegenereerde risico’s te beheren voordat deze in cumulatieve blootstelling veranderen”, aldus Lambert.

Langwerkende middelen kunnen ook het risico lopen dat ze mislukken zonder een duidelijke terugdraaiing. Het belangrijkste is dat dit soort agenten vaak een reeks goed gedefinieerde taken missen en hun plannen dynamisch aanpassen terwijl ze bezig zijn.

Kunal Anand, chief product officer bij F5, vertelde VentureBeat in een e-mail dat agenten met een lange horizon een veel grotere architecturale verschuiving vertegenwoordigen dan waar de meeste bedrijven op waren voorbereid.

“We gingen van scripts naar services, naar containers, naar functies en nu naar agenten als persistente infrastructuur. We creëerden categorieën waar we nog geen goede naam voor hebben: agent runtime, agent gateway, agent identiteitsprovider, agent mesh. Het API-gatewaypatroon wordt iets dat doelen en workflows moet begrijpen, niet alleen eindpunten en werkwoorden”, zegt Anand.

Ren 13 uur en zelfs vijf dagen

Het begrijpen hoe agenten moeten worden georkestreerd wordt belangrijk omdat modelmogelijkheden de orkestratie-innovaties beginnen te overtreffen, zelfs nu bedrijven beginnen te kijken naar agenten met een lange horizon.

Moonshot AI zegt dat het model is gebouwd voor taken die ‘uitdagingen uit de echte wereld weerspiegelen die doorgaans weken of maanden van collectieve menselijke inspanning vergen’. In een afzonderlijk technisch document dat aan VentureBeat is verstrekt, beweert Moonshot dat K2.6 in 10 uur een complete SysY-compiler van de grond af heeft gebouwd – werk dat wordt gekarakteriseerd als het equivalent van een team van vier ingenieurs in twee maanden – en alle 140 functionele tests heeft doorstaan ​​zonder menselijke tussenkomst.

Het team zette K2.6 in voor complexe technische taken, waaronder het reviseren van een acht jaar oude open source engine voor financiële matching. De technici van Moonshot beschreven een 13 uur durende uitvoering waarbij “12 optimalisatiestrategieën werden doorlopen en meer dan 1.000 tool-oproepen werden geïnitieerd om meer dan 4.000 regels code nauwkeurig aan te passen.”

Moonshot zei dat een van zijn teams K2.6 gebruikte om een ​​agent te bouwen die vijf dagen autonoom reed. Deze agent beheerde de monitoring, incidentrespons en systeemoperaties.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in