Home Nieuws Deze nieuwe doodeenvoudige promptingtechniek verhoogt de nauwkeurigheid van LLM’s met tot 76%...

Deze nieuwe doodeenvoudige promptingtechniek verhoogt de nauwkeurigheid van LLM’s met tot 76% bij niet-redenerende taken

8
0
Deze nieuwe doodeenvoudige promptingtechniek verhoogt de nauwkeurigheid van LLM’s met tot 76% bij niet-redenerende taken

In de chaotische wereld van Large Language Model (LLM)-optimalisatie hebben ingenieurs de afgelopen jaren steeds esoterischere rituelen ontwikkeld om betere antwoorden te krijgen.

We hebben ‘Chain of Thought’ gezien (waarbij het model wordt gevraagd stap voor stap na te denken en vaak deze ‘zintuiglijke aanwijzingen’ aan de gebruiker laat zien), ‘Emotionele chantage’ (het model vertellen dat zijn carrière afhangt van het antwoord of dat het beschuldigd van seksueel misbruik), en complexe multi-shot prompting-frameworks.

Maar een nieuw artikel gepubliceerd door Google Research suggereert dat we er misschien over hebben nagedacht. De onderzoekers ontdekten dat het simpelweg herhalen van de invoerquery (letterlijk kopiëren en plakken van de prompt zodat deze twee keer verschijnt) de prestaties van de belangrijkste modellen, waaronder Gemini, GPT-4o, Claude en DeepSeek, consequent verbetert.

De krant getiteld “Snelle iteratie verbetert niet-redenerende LLM’s”, dat vorige maand net voor de feestdagen werd gepubliceerd, presenteert een conclusie die bijna verdacht eenvoudig is: voor taken die geen complexe redeneerstappen vereisen, levert het tweemaal geven van de prompt aanzienlijk betere resultaten op dan het één keer geven ervan.

Sterker nog, vanwege de manier waarop de transformatorarchitectuur werkt, levert deze “rare truc” vrijwel geen straf op in termen van opwekkingssnelheid.

De causale blinde vlek

Om te begrijpen waarom het herhalen van een vraag een supercomputer slimmer maakt, moet je kijken naar de architectonische beperkingen van het standaard Transformer-model.

De meeste moderne LLM’s zijn getraind als ‘causale’ taalmodellen. Dit betekent dat ze tekst strikt van links naar rechts verwerken. Wanneer het model het vijfde token in uw zin verwerkt, kan het token 1 tot en met 4 “bijwonen”, maar het heeft geen kennis van token 6 omdat het nog niet is gebeurd.

Dit creëert een fundamentele beperking in de manier waarop modellen gebruikersquery’s begrijpen. Zoals de auteurs opmerken, is de volgorde van de informatie enorm belangrijk.

Een query die is opgemaakt als geeft vaak andere resultaten dan omdat in het laatste geval het model de vraag leest voordat het de context kent waarop het moet worden toegepast.

Snelle iteratie hackt deze beperking door een invoer van te transformeren naar .

Op het moment dat het model begint met verwerken ander iteratie van de query, heeft deze de eerste iteratie al “gelezen”. Hierdoor kunnen tokens in de tweede kopie rekening houden met elk afzonderlijk token in de eerste kopie.

In feite geniet de tweede iteratie een vorm van bidirectionele aandacht: het kan ’terugkijken’ naar de hele vraag om onduidelijkheden op te lossen of specifieke details op te halen die mogelijk in één keer gemist zijn.

Benchmarks: 47 overwinningen, 0 verliezen

De onderzoekers, Yaniv Leviathan, Matan Kalman en Yossi Matias, testten deze hypothese op een reeks van zeven populaire benchmarks, waaronder ARC, OpenBookOA, GSM8K en MMLU-Pro. Ze evalueerden zeven verschillende modellen, variërend van lichtgewicht modellen zoals de Gemini 2.0 Flash Lite en GPT-4o-mini tot zwaargewichten zoals de Claude 3.7 Sonnet en DeepSeek V3. De resultaten waren statistisch scherp. Bij het vragen van modellen niet voor het gebruik van expliciete redenering (dat wil zeggen, eenvoudigweg een direct antwoord geven), wonnen snelle herhalingen 47 van de 70 onderlinge tests ten opzichte van de basislijn, zonder verliezen. De winst was vooral dramatisch bij taken waarbij het nauwkeurig ophalen van een prompt vereist was. Het team ontwierp een aangepaste “NameIndex”-benchmark waarbij het model een lijst met 50 namen krijgt en wordt gevraagd de 25e te identificeren.

Deze enorme sprong illustreert perfect de ‘causale blinde vlek’. In één keer kan het model het nummer uit het oog verliezen wanneer het de 25e naam bereikt. Bij de iteratieve doorgang heeft het model feitelijk de volledige lijst in zijn “werkgeheugen” voordat wordt geprobeerd de ophaaltaak op te lossen.

De “gratis lunch” van latentie.

Doorgaans verhoogt het toevoegen van tekst aan een prompt de kosten en de latentie. Als je de invoer verdubbelt, verdubbel je ook het wachten, toch? Verrassend genoeg, nee. Het artikel laat zien dat snelle herhaling in wezen “gratis” is in termen van door de gebruiker waargenomen latentie. LLM-verwerking is verdeeld in twee fasen:

  1. Voorinvullen: Het model verwerkt de invoerprompt. Dit is zeer parallelleerbaar; De GPU kan de volledige promptmatrix tegelijkertijd verwerken.

  2. Generatie (decodering): Het model genereert het antwoord per token. Dit is serieel en traag.

Snelle herhaling vergroot alleen maar het werk voorvullen fase. Omdat moderne hardware zo efficiënt omgaat met het vooraf invullen, merkt de gebruiker het verschil nauwelijks. De onderzoekers ontdekten dat het herhalen van de prompt dat deed niet het vergroten van de lengte van het gegenereerde antwoord, noch verhoogde het de latentie van de “tijd tot het eerste token” voor de meeste modellen. De enige uitzonderingen waren de modellen van Anthropic (Claude Haiku en Sonnet) op extreem lange verzoeken, waarbij de prefill-fase uiteindelijk op een knelpunt stuitte. Maar voor de overgrote meerderheid van de gebruiksscenario’s verbetert de techniek de nauwkeurigheid zonder de chatervaring te vertragen.

Rechtvaardiging versus herhaling

Er is een voorbehoud: deze techniek is voornamelijk bedoeld voor ‘niet-redenerende’ taken: scenario’s waarin u een direct antwoord wilt in plaats van een stapsgewijze afleiding.

Toen de onderzoekers snelle herhaling testten in combinatie met “Chain of Thought” (waarbij het model werd gevraagd “stap voor stap na te denken”), verdwenen de winsten grotendeels en lieten neutrale tot licht positieve resultaten zien (5 overwinningen, 1 verlies, 22 gelijkspel).

De auteurs beweren dat redeneermodellen van nature zelf een versie van herhaling uitvoeren. Wanneer een model ‘denkt’, herhaalt het vaak de premisse van de vraag in de gegenereerde output voordat het deze oplost. Daarom wordt het overbodig om de prompt in de invoer expliciet te herhalen.

Maar voor toepassingen waarbij u een snel, direct antwoord nodig heeft zonder de reikwijdte (en kosten) van langdurig redeneren, biedt snelle herhaling een krachtig alternatief.

Strategische implementatie voor het bedrijf

Voor het bedrijfsmanagement vertegenwoordigt dit onderzoek de zeldzaamste AI-ontwikkeling: een ‘gratis’ optimalisatie. Maar kapitalisatie vereist nuance; dit is geen instelling om blindelings over een hele organisatie heen te schakelen, maar eerder een tactische aanpassing die zich uitstrekt over techniek, orkestratie en beveiliging.

Voor technische leads die de eeuwige driehoek van snelheid, kwaliteit en kosten in evenwicht houden, biedt snelle iteratie een manier om boven uw gewichtsklasse uit te stijgen. Uit de gegevens blijkt dat kleinere, snellere modellen – zoals de Gemini 2.0 Flash Lite – een vrijwel perfecte ophaalnauwkeurigheid kunnen bereiken (van 21,33% naar 97,33%) door de invoer slechts twee keer te verwerken.

Dit verandert de modelselectiecalculus: voordat ze upgraden naar een groter, duurder model om een ​​knelpunt in de nauwkeurigheid op te lossen, moeten ingenieurs eerst testen of eenvoudige herhaling hun huidige “Lite” -modellen in staat stelt de kloof te dichten. Het is een potentiële strategie om de snelheids- en kostenvoordelen van lichtgewicht infrastructuur te behouden zonder concessies te doen aan de prestaties bij mijnbouw- en ophaaltaken.

Deze logica verschuift op natuurlijke wijze de last naar de orkestratielaag. Voor degenen die de middleware en API-gateways beheren die AI-applicaties aan elkaar lijmen, zou snelle iteratie waarschijnlijk een standaard, onzichtbaar onderdeel van pijplijnlogica moeten worden in plaats van een gebruikersgedrag.

Omdat de techniek echter neutraal is voor taken die veel redeneren, maar zeer effectief is voor directe antwoorden, vereist deze voorwaardelijke toepassing. Een slim orkestratieharnas identificeert automatisch verzoeken die worden doorgestuurd naar niet-redenerende eindpunten (zoals extractie van entiteiten, classificatie of eenvoudige vraag-en-antwoordvragen) en dupliceert de prompt voordat deze wordt doorgegeven aan het model. Dit optimaliseert de prestaties op infrastructuurniveau en levert betere resultaten zonder dat er actie van eindgebruikers nodig is of dat het productiebudget wordt verhoogd.

Ten slotte introduceert dit verhoogde bewustzijn een nieuwe variabele voor beveiligingsteams.

Als het herhalen van een prompt de intentie van een gebruiker met het model verduidelijkt, spreekt het vanzelf dat kwade bedoelingen ook kunnen worden opgehelderd. Beveiligingsdirecteuren zullen hun red-teaming-protocollen moeten bijwerken om ‘herhaalde injectie’-aanvallen te testen – waarbij ze moeten verifiëren of het herhalen van een jailbreak-commando (bijvoorbeeld ‘Negeer eerdere instructies’) het model de inbreuk effectiever laat ‘monitoren’. Omgekeerd biedt dit mechanisme een nieuw verdedigingsinstrument: het herhalen van systeemprompts.

Het tweemaal specificeren van veiligheidsleuningen aan het begin van het contextvenster kan het model dwingen strenger om te gaan met veiligheidsbeperkingen en fungeren als een goedkope versterking voor robuuste veiligheidsoperaties.

Waarom dit ertoe doet

Dit onderzoek benadrukt een cruciaal inzicht voor ontwikkelaars die voortbouwen op LLM’s: onze huidige modellen worden nog steeds ernstig beperkt door hun unidirectionele aard. Terwijl we wachten op nieuwe architecturen die causale blindheid kunnen oplossen, bieden ruwe maar effectieve oplossingen zoals snelle iteratie onmiddellijke waarde. De auteurs suggereren dat dit standaardgedrag kan worden voor toekomstige systemen.

Mogelijk zien we binnenkort inferentie-engines die stilletjes onze aanwijzingen op de achtergrond verdubbelen voordat ze naar het model worden gestuurd, of ‘Reasoning’-modellen die zijn getraind om deze iteratiestrategie te internaliseren om efficiënter te zijn. Als u momenteel moeite heeft om een ​​model complexe instructies te laten volgen of specifieke details uit een lang document te halen, is de oplossing misschien geen betere prompt. Misschien moet je het gewoon nog een keer zeggen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in