Home Nieuws Beyond the Lakehouse: Fundamentals NEXUS omzeilt handmatige ETL met een ingebouwd basismodel...

Beyond the Lakehouse: Fundamentals NEXUS omzeilt handmatige ETL met een ingebouwd basismodel voor tabelgegevens

2
0
Beyond the Lakehouse: Fundamentals NEXUS omzeilt handmatige ETL met een ingebouwd basismodel voor tabelgegevens

De deep learning-revolutie heeft een vreemde blinde vlek: de spreadsheet. Terwijl grote taalmodellen (LLM’s) de nuances van menselijk proza ​​onder de knie hebben en beeldgeneratoren het digitale canvas hebben veroverd, worden de gestructureerde, relationele gegevens die ten grondslag liggen aan de wereldeconomie – de rijen en kolommen van ERP-systemen, CRM’s en financiële grootboeken – tot nu toe behandeld als gewoon een bestandsformaat vergelijkbaar met tekst of pdf’s.

Het heeft bedrijven ertoe aangezet bedrijfsresultaten te voorspellen met behulp van het typische op maat gemaakte, arbeidsintensieve data science-proces van handmatige functieconstructie en klassieke machine learning-algoritmen die dateren van vóór het moderne deep learning.

Maar nu Fundamenteeleen in San Francisco gevestigd AI-bedrijf dat mede is opgericht door DeepMind-alumni gaat vandaag van start met een totale financiering van $255 miljoen om deze kloof te overbruggen.

Het bedrijf komt uit stealth en lanceert NEXUS, een Large Tabular Model (LTM) dat is ontworpen om bedrijfsgegevens niet als een eenvoudige reeks woorden te behandelen, maar als een complex web van niet-lineaire relaties.

Medeoprichters Jeremy Fraenkel, Annie Lamont en Gabriel Suissa. Krediet: fundamenteel

De technologie: gaat verder dan sequentiële logica

De meeste huidige AI-modellen zijn gebaseerd op sequentiële logica: het voorspellen van het volgende woord in een zin of de volgende pixel in een frame.

Bedrijfsgegevens zijn echter inherent niet-sequentieel. Het churnrisico van een klant is niet slechts een tijdlijn; het is een multidimensionaal kruispunt van transactiefrequentie, sentiment voor steuntickets en regionale economische verschuivingen. Bestaande LLM’s worstelen hiermee omdat ze niet geschikt zijn voor de beperkingen op het gebied van grootte en dimensionaliteit van tabellen op bedrijfsschaal.

“De meest waardevolle gegevens ter wereld bevinden zich in tabellen, en tot nu toe is er geen goed fundamenteel model gebouwd om deze specifiek te begrijpen”, zegt Jeremy Fraenkel, CEO en medeoprichter van Fundamental.

In een recent interview met VentureBeat benadrukte Fraenkel dat hoewel de AI-wereld geobsedeerd is door tekst, audio en video, spreadsheets de grootste modaliteit voor bedrijven blijven. “LLM’s kunnen dit soort gegevens echt niet zo goed verwerken”, legde hij uit, “en bedrijven vertrouwen momenteel op zeer ouderwetse machine learning-algoritmen om voorspellingen te doen.”

NEXUS is getraind op miljarden echte tabellarische datasets met behulp van Amazon SageMaker HyperPod. In tegenstelling tot traditionele XGBoost- of Random Forest-modellen, waarbij datawetenschappers handmatig functies moeten definiëren (de specifieke variabelen waar het model naar moet kijken), is NEXUS ontworpen om onbewerkte tabellen rechtstreeks op te nemen.

Het identificeert latente patronen in kolommen en rijen die menselijke analisten mogelijk over het hoofd zien, waardoor effectief de verborgen taal van het web wordt gelezen om niet-lineaire interacties te begrijpen.

De tokenisatieval

Een van de belangrijkste redenen waarom traditionele LLM’s falen op het gebied van tabelgegevens is de manier waarop ze met getallen omgaan. Fraenkel legt uit dat LLM’s getallen op dezelfde manier tokeniseren als woorden, door ze op te splitsen in kleinere stukjes. “Het probleem is dat ze hetzelfde toepassen op getallen. Tabellen zijn vrijwel allemaal numeriek”, aldus Fraenkel. “Als je een getal als 2.3 hebt, staat er ‘2’, ‘.’ en ‘3’ als drie verschillende tokens. Het betekent in feite dat je het begrip van de verdeling van getallen verliest. Het is niet zoals een rekenmachine; je krijgt niet altijd het juiste antwoord, omdat het model het concept van getallen niet van nature begrijpt.”

Bovendien zijn gegevens in tabelvorm volgorde-invariant op een manier die taal niet is. Fraenkel gebruikt een voorbeeld uit de gezondheidszorg om dit te illustreren: “Als ik u een tabel geef met honderdduizenden patiënten en u vraag te voorspellen wie van hen diabetes heeft, zou het niet uit moeten maken of de eerste kolom lengte is en de tweede kolom gewicht, of omgekeerd.”

Hoewel LLM’s erg gevoelig zijn voor de volgorde van woorden in een prompt, is NEXUS ontworpen om te begrijpen dat veranderende kolomposities de onderliggende voorspelling niet mogen beïnvloeden.

Werkt op de voorspellende laag

Recente spraakmakende integraties, zoals Claude van Anthropic verschijnt rechtstreeks in Microsoft Excelhebben gesuggereerd dat LLM’s al tabellen oplossen.

Fraenkel onderscheidt het werk van Fundamental echter als opererend op een fundamenteel andere laag: de voorspellende laag. “Wat ze doen, bevindt zich in wezen op de formulelaag: formules zijn tekst, ze lijken op code”, zei hij. “We proberen u niet de mogelijkheid te geven een financieel model in Excel te bouwen. We helpen u een prognose te maken.”

NEXUS is ontworpen voor beslissingen in een fractie van een seconde waarbij een mens niet betrokken is, zoals een creditcardmaatschappij die bepaalt of een transactie frauduleus is op het moment dat u veegt.

Terwijl tools zoals Claude een spreadsheet kunnen samenvatten, is NEXUS gebouwd om te voorspellen wat de volgende stap zal zijn, of het nu gaat om een ​​defect aan apparatuur in een fabriek of de kans dat een patiënt opnieuw wordt opgenomen in een ziekenhuis.

Architectuur en toegankelijkheid

De kernwaardepropositie van Fundamental is de radicale vermindering van de tijd voor inzicht. Traditioneel kan het bouwen van een voorspellend model maanden handmatig werk vergen.

“Je moet een leger datawetenschappers inhuren om al deze datapijplijnen te bouwen om de data te verwerken en op te schonen”, legt Fraenkel uit. “Als er ontbrekende waarden of inconsistente data zijn, werkt je model niet. Deze pipelines moet je voor elke use case bouwen.”

Basisclaims NEXUS vervangt dit hele handmatige proces door slechts één regel code. Omdat het model is voorgetraind op een miljard tabellen, vereist het niet hetzelfde niveau van taakspecifieke training of feature-engineering als traditionele algoritmen.

Nu Fundamental zijn stealth-fase verlaat en de bredere markt betreedt, doet het dat met een commerciële structuur die is ontworpen om de traditionele frictie van de implementatie van bedrijfssoftware te omzeilen.

Het bedrijf heeft al verschillende zevencijferige contracten binnengehaald met Fortune 100-organisaties, een prestatie die mogelijk wordt gemaakt door een strategische go-to-market-architectuur waarin Amazon Web Services (AWS) fungeert als de recordverkoper op de AWS Marketplace.

Hierdoor kunnen bedrijfsleiders NEXUS verwerven en implementeren met behulp van bestaande AWS-credits, waardoor voorspellende intelligentie effectief als een standaardtool naast computing en opslag wordt behandeld. Voor de ingenieurs die belast zijn met de implementatie, is de ervaring een hoge impact maar weinig wrijving; NEXUS werkt via een op Python gebaseerde interface op een puur voorspellende laag in plaats van op een conversatielaag.

Ontwikkelaars verbinden onbewerkte tabellen rechtstreeks met het model en labelen specifieke doelkolommen (zoals de waarschijnlijkheid van kredietverzuim of een onderhoudsrisicoscore) om de prognose te activeren. Het model retourneert vervolgens regressies of classificaties rechtstreeks naar de datastack van het bedrijf en fungeert als een stille, snelle engine voor geautomatiseerde besluitvorming in plaats van als een op chat gebaseerde assistent.

De maatschappelijke inspanningen: voorbij de bottom line

Hoewel de commerciële implicaties van vraagvoorspelling en prijsvoorspelling duidelijk zijn, benadrukt Fundamental het maatschappelijke voordeel van voorspellende intelligentie.

Het bedrijf benadrukt belangrijke gebieden waarop NEXUS catastrofale gevolgen kan voorkomen door signalen te identificeren die verborgen zijn in gestructureerde gegevens.

Door sensorgegevens en onderhoudsgegevens te analyseren, kan NEXUS storingen zoals leidingcorrosie voorspellen. Het bedrijf wijst op de Flint-watercrisis – die meer dan 1 miljard dollar aan reparaties heeft gekost – als een voorbeeld waarbij voorspellende monitoring levensbedreigende besmetting had kunnen voorkomen.

Op dezelfde manier kostten de tekorten aan persoonlijke beschermingsmiddelen tijdens de COVID-19-crisis ziekenhuizen in één jaar tijd 323 miljard dollar. Fundamentele beweringen dat NEXUS, door productie- en epidemiologische gegevens te gebruiken, tekorten 4 tot 6 weken vóór de piek in de vraag kan voorspellen, waardoor de noodproductie op tijd kan worden geactiveerd om levens te redden.

Op het gebied van het klimaat wil NEXUS voorspellingen doen over 30 tot 60 dagen van overstromingen en droogtes, zoals voor de overstromingen in Pakistan in 2022, die voor 30 miljard dollar aan schade veroorzaakten.

Ten slotte wordt het model gebruikt om het risico op heropname in ziekenhuizen te voorspellen door de demografische gegevens van patiënten en sociale determinanten te analyseren. Zoals het bedrijf het stelt: “Een alleenstaande moeder met twee banen zou niet opnieuw op de eerste hulp moeten belanden omdat we niet hadden voorspeld dat ze vervolgzorg nodig zou hebben.”

Prestaties versus latentie

In de bedrijfswereld varieert de definitie van beter van bedrijfstak tot bedrijfstak. Voor sommigen is het snelheid; voor anderen is het ruwe nauwkeurigheid.

“Qua latency hangt het af van de use case”, legt Fraenkel uit. “Als je een onderzoeker bent die probeert te begrijpen welke medicijnen je moet toedienen aan een patiënt in Afrika, doet de latentie er niet zoveel toe. Je probeert een nauwkeuriger besluit te nemen dat uiteindelijk de meeste levens kan redden.”

Voor een bank of hedgefonds daarentegen vertaalt zelfs een marginale toename van de nauwkeurigheid zich in enorme waarde.

“Het verhogen van de voorspellingsnauwkeurigheid met een half procent is voor een bank miljarden dollars waard”, zegt Fraenkel. “Voor verschillende gebruiksscenario’s verandert de omvang van het stijgingspercentage, maar we kunnen ervoor zorgen dat u betere prestaties levert dan wat u momenteel heeft.”

Ambitieuze visie krijgt veel steun

De $225 miljoen kostende Series A, geleid door Oak HC/FT met deelname van Salesforce Ventures, Valor Equity Partners en Battery Ventures, geeft blijk van een sterke overtuiging dat tabelgegevens de volgende grote stap zijn.

Opmerkelijke engelinvesteerders, waaronder leidinggevenden van Perplexity, Wiz, Brex en Datadog, bevestigen de geschiedenis van het bedrijf verder.

Annie Lamont, medeoprichter en managing partner bij Oak HC/FT, verwoordde het sentiment: “Het belang van het Fundamental-model kan moeilijk worden overschat – gestructureerde, relationele data moeten de voordelen van de deep learning-revolutie nog zien.”

Fundamenteel positioneert zichzelf niet alleen als een zoveelste AI-tool, maar als een nieuwe categorie van zakelijke AI. Met een team van ongeveer 35 medewerkers gevestigd in San Francisco beweegt het bedrijf zich van het tijdperk van aangepaste modellen naar een tijdperk van basismodellen voor tafels.

“Deze traditionele algoritmen zijn de afgelopen tien jaar hetzelfde geweest; ze verbeteren niet”, zei Fraenkel. “Onze modellen worden steeds beter. We doen voor tabellen wat ChatGPT deed voor tekst.”

Samenwerking met AWS

Via een strategisch partnerschap met Amazon Web Services (AWS) is NEXUS rechtstreeks geïntegreerd in het AWS-dashboard. AWS-klanten kunnen het model implementeren met behulp van hun bestaande credits en infrastructuur. Fraenkel omschrijft dit als een “zeer unieke deal”, waarbij hij opmerkt dat Fundamental een van de slechts twee AI-bedrijven is die zo’n diepgaand, gelaagd partnerschap met Amazon hebben opgebouwd.

Een van de belangrijkste obstakels voor zakelijke AI is gegevensprivacy. Bedrijven zijn vaak terughoudend om gevoelige gegevens naar een infrastructuur van derden te verplaatsen.

Om dit op te lossen hebben Fundamental en Amazon een enorme technische prestatie geleverd: de mogelijkheid om volledig gecodeerde modellen – zowel de architectuur als de gewichten – rechtstreeks in de eigen omgeving van de klant te implementeren. “Klanten kunnen erop vertrouwen dat de gegevens bij hen zijn”, aldus Fraenkel. “Wij zijn het eerste en momenteel het enige bedrijf dat een dergelijke oplossing bouwt.”

De opkomst van Fundamentals is een poging om het besturingssysteem voor zakelijke beslissingen opnieuw te definiëren. Als NEXUS presteert zoals geadverteerd – het omgaan met financiële fraude, energieprijzen en verstoringen van de toeleveringsketen met één enkel, algemeen model – zal dit het moment markeren waarop AI eindelijk leert de spreadsheets te lezen die feitelijk de wereld besturen. The Power to Predict gaat niet langer over kijken naar wat er gisteren is gebeurd; het gaat over het blootleggen van de verborgen taal van de tabellen om te bepalen wat er morgen zal gebeuren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in