Soms wil je iets transcriberen, maar wil je niet dat het op internet hangt zodat een hacker het kan zien. Misschien is het een gesprek met uw arts of advocaat. Misschien ben je journalist en is het een gevoelig interview. Privacy en controle zijn belangrijk.
Dit verlangen naar privacy is een van de redenen waarom de Franse ontwikkelaar Mistral AI zijn nieuwste transcriptiemodellen klein genoeg heeft gebouwd draaien op apparaten. Ze kunnen op uw telefoon, op uw laptop of in de cloud worden uitgevoerd.
Voxtral Minitranscriptie 2een van de nieuwe modellen die woensdag zijn aangekondigd, is “super, super klein”, zegt Pierre Stock, vice-president wetenschappelijke operaties van Mistral. Een ander nieuw model, Voxtral Realtime, kan hetzelfde doen, maar dan live, zoals ondertiteling.
Privacy is niet de enige reden waarom het bedrijf klein wilde bouwen open source-modellen. Door rechtstreeks op het apparaat dat u gebruikt te draaien, kunnen deze modellen sneller werken. U hoeft niet meer te wachten tot bestanden via internet hun weg naar een datacenter vinden en terug.
“Wat je wilt is dat de transcriptie superdicht bij jou gebeurt”, zei Stock. “En het dichtstbij dat we kunnen bedenken is elk edge-apparaat, dus een laptop, een telefoon, een wearable zoals een smartwatch bijvoorbeeld.”
Vooral bij real-time transcriptie is de lage latency (lees: hoge snelheid) van belang. Het Voxtral Realtime-model kan genereren met een latentie van minder dan 200 milliseconden, aldus Stock. Het kan de woorden van een spreker ongeveer net zo snel transcriberen als u ze kunt lezen. U hoeft niet langer twee of drie seconden te wachten totdat de ondertiteling is ingehaald.
Zie dit: Chiptekort treft iPhones, OpenAI stopgezette investeringen, TikTok-censuurbeschuldigingen | Technologie vandaag
Het Voxtral Realtime-model is beschikbaar via de API van Mistral en op knuffelend gezichtsamen met een demo waar je het kunt proberen.
Bij enkele korte tests ontdekte ik dat het vrij snel genereerde (hoewel niet zo snel als je zou verwachten als het op het apparaat stond) en erin slaagde precies op te vangen wat ik zei in het Engels, met een klein beetje Spaans erin gemengd. Het kan momenteel 13 talen verwerken, volgens Mistral.
Voxtral Mini Transcribe 2 is ook beschikbaar via de API van het bedrijf, of je kunt ermee spelen in Mistral’s AI-studio. Ik heb het model gebruikt om mijn interview met Stock te transcriberen.
Ik vond het snel en redelijk betrouwbaar, hoewel het worstelde met echte namen als Mistral AI (die het Mr. Lay Eye noemde) en Voxtral (VoxTroll). Ja, het AI-model heeft zijn eigen naam verkeerd. Maar Stock zei dat gebruikers het model kunnen aanpassen om bepaalde woorden, namen en jargon beter te begrijpen als ze het voor specifieke taken gebruiken.
De uitdaging bij het bouwen van kleine, snelle AI-modellen is dat ze ook nauwkeurig moeten zijn, aldus Stock. Het bedrijf prees de prestaties van de modellen op benchmarks die verbeterde uitvalpercentages lieten zien in vergelijking met concurrenten.
“Het is niet genoeg om te zeggen: oké, ik maak een klein model”, zei Stock. “Wat je nodig hebt is een klein model dat dezelfde kwaliteit heeft als grotere modellen, toch?”


