Microsoft breidt zijn lijst met interne AI-modellen uit, brengt een nieuw spraak-naar-tekst-systeem uit en maakt voor het eerst twee bestaande modellen algemeen beschikbaar voor ontwikkelaars.
De stappen van Microsoft AI (MAI) maken deel uit van een bredere inspanning van het bedrijf om zijn eigen AI-mogelijkheden uit te breiden buiten zijn partnerschap met OpenAI, waardoor Microsoft meer controle krijgt over zijn eigen lot in de concurrentie tegen Google, Amazon en anderen.
Microsoft aangekondigd MAI-Transcribe-1 op donderdag is een spraak-naar-tekst-model het meest nauwkeurige dat momenteel beschikbaar is. Het bedrijf bracht ook zijn bestaande modellen voor het genereren van spraak en beelden, bekend als MAI-Voice-1 en MAI-Image-2, uit voor breed commercieel gebruik.
Het is Microsoft’s eerste grote modelrelease sindsdien een reorganisatie in maartaangekondigd door CEO Satya Nadella, waarbij Mustafa Suleyman, CEO van Microsoft AI, het dagelijkse Copilot-toezicht verlegt om zich te concentreren op de ontwikkeling van grensmodellen en superintelligentie.
Suleiman vertelde De Verge dat het transcriptiemodel werkt tegen “de helft van de GPU-kosten van de andere geavanceerde modellen.” Hij vertelde VentureBeat dat het model is gebouwd door een team van slechts tien mensen, en dat Microsoft van plan is om uiteindelijk een grensoverschrijdend groot taalmodel te bouwen om indien nodig “volledig onafhankelijk” te zijn.
Microsoft heeft onlangs ook voormalig Allen Institute ingehuurd voor CEO Ali Farhadi en andere top AI-onderzoekers van het in Seattle gevestigde instituut om het team van Suleyman verder te versterken. Dat meldt GeekWire vorige week.
De MAI-Transcribe-1 is ontworpen om te kunnen omgaan met luidruchtige omstandigheden in de echte wereld, zoals callcenters en vergaderruimtes, en Microsoft zegt dat het integraties met Copilot en Teams test. Microsoft zegt dat het de beste prijs-kwaliteitverhouding biedt van alle grote cloudproviders en rechtstreeks concurreert met OpenAI’s Whisper en Google’s Gemini op de FLEURS-benchmark.
IN een blogpostSuleyman noemde het model “niet alleen het meest nauwkeurige, maar ook razendsnel”.
MAI-Voice-1 genereert natuurlijk klinkende spraak en laat ontwikkelaars nu aangepaste stemmen maken op basis van korte fragmenten van voorbeeldaudio. MAI-Image-2 staat in de top drie van het Arena.ai-klassement voor het genereren van afbeeldingen en wordt uitgerold in Bing en PowerPoint.
Alle drie zijn beschikbaar op het Microsoft Foundry-ontwikkelaar AI-platform en MAI Playground.



