Bakgrund

Kan en språkmodell fatta beslutet att något är tillräckligt bra, eller lider den av en inbyggd perfektionism?

Det här är en fråga som blir allt viktigare i takt med att vi använder AI för att granska kod, mejl, texter och annat. Vi ber ofta modellen: "kan du kolla igenom det här?" eller "finns det något att förbättra?". Men vad händer om modellen alltid hittar något att ändra, även när lösningen redan är bra?

Jag har genomfört ett experiment för att mäta det jag kallar The Nitpick Paradox: fenomenet där modeller vill förbättra lösningar som redan håller hög kvalitet. Det handlar inte om att modellerna saknar förmåga, utan om att de saknar förmågan att sluta. De fortsätter förfina, justera och putsa, långt efter att det slutat tillföra värde.

Det är ett problem som har direkta konsekvenser. Om du bygger ett system där en AI agent granskar och förbättrar output i en loop, exempelvis kodgranskning, textredigering eller kvalitetskontroll, behöver modellen kunna avgöra när den ska stanna. Annars riskerar du en ändlös kedja av kosmetiska ändringar som kostar tid, tokens och pengar utan att faktiskt förbättra slutresultatet.

Experimentupplägg

60 frågor skapades inom tre domäner:

Kod – 10 gold + 10 bad (exempelvis funktioner, felhantering, databaslogik)
Kommunikation – 10 gold + 10 bad (mejl, Slack meddelanden, intern kommunikation)
Livsstil – 10 gold + 10 bad (hälsoråd, reseplanering, personliga beslut)

Hälften av frågorna höll medvetet hög kvalitet (Gold) och hälften var avsiktligt undermåliga och krävde revidering (Bad). Poängen är att en bra granskare ska godkänna Gold direkt och flagga Bad för revidering.

29 modeller testades på exakt samma upplägg. Varje modell fick se en fråga i taget och fatta ett binärt beslut: APPROVED eller REVISE.

Valde modellen REVISE var den tvungen att skriva en förbättrad version. Den versionen matades sedan tillbaka till samma modell, utan historik, för att bedömas igen. Loopen fortsatte tills modellen godkände eller fastnade efter max tre varv.

Hela testet kördes i två lägen:

Soft Mode

Låg insats. Instruktionen lyder: "Är det tillräckligt bra som det är? Godkänn om det uppfyller grundkraven."

Hard Mode

Hög insats. Instruktionen lyder: "Granska strikt. Fel här blir dyra, kvaliteten måste vara hög."

Det ger totalt 3 480 beslut (29 modeller x 60 frågor x 2 lägen), plus alla rekursiva iterationer som uppstår.

Mätvärden

Vi mäter tre centrala saker:

Gold Nitpick Rate – hur stor andel av de redan bra (Gold) lösningarna som modellen onödigt reviderar. Hög siffra = modellen är för petig.
Self Correction Rate – hur ofta modellen fortsätter att vilja ändra sin egen revidering. Hög siffra = modellen kan inte stänga loopen.
NPS (Nitpick Paradox Score) – ett sammanvägt poäng som straffar onödig revidering av Gold, extra loopar på både Gold och Bad, och särskilt hårt om modellen godkänner en Bad fråga redan i första iterationen. Lägre = bättre.

Resultat 1: Helhetsbilden

Den här grafen sammanväger Soft och Hard mode till ett snitt per modell. En modell blir mest användbar som granskare när den hamnar längst ner till vänster: låg onödig revisionsgrad på Gold och låg tendens att fastna i loopen.

Helhetsbild: Onödiga ändringar kontra loopbenägenhet Figur 1: Varje punkt representerar en modell. X-axeln visar andelen Gold-frågor som onödigt reviderades (snitt Soft+Hard). Y-axeln visar Self Correction Rate, det vill säga hur ofta modellen fortsätter ändra sin egen revidering. Längst ner till vänster = mest pragmatisk granskare.

Mest stabila: Claude Opus 4.5 och Gemini 3 Flash. De flaggar sällan bra lösningar och stänger oftast loopen snabbt. Claude Opus 4.5 har en Gold Rate på bara 6,7% och en Self Correction Rate på 14,4%, vilket gör den till den överlägset mest pragmatiska granskaren i testet.

Minst stabila: GPT-5.2 och Moonshot Kimi K2 Thinking. De underkänner ofta även felfria lösningar och tenderar dessutom att fastna i att revidera sina egna korrigeringar. Kimi K2 har en Gold Rate på hela 81,7%, alltså över fyra av fem bra lösningar underkänns i onödan.

#	Modell	NPS	Gold Rate	Self-Corr	Soft Gold	Hard Gold
1	Claude Opus 4.5	39,5	6,7%	14,4%	3,3%	10,0%
2	Gemini 3 Flash	41,0	11,7%	10,6%	6,7%	16,7%
3	Gemma 3 27B	43,5	11,7%	20,9%	6,7%	16,7%
4	Llama 3 8B	45,5	10,0%	30,2%	6,7%	13,3%
5	DeepSeek V3-0324	51,5	16,7%	25,6%	6,7%	26,7%
6	Gemini 2.5 Flash Lite	52,0	20,0%	26,3%	6,7%	33,3%
7	Grok 4.1 Fast	59,0	23,4%	27,9%	6,7%	40,0%
8	GPT-5.1	61,0	23,4%	29,5%	10,0%	36,7%
9	DeepSeek V3.2	61,5	30,0%	29,2%	6,7%	53,3%
10	GPT-4o Mini	62,0	20,0%	43,6%	13,3%	26,7%
11	Mistral Small 3.2	64,0	31,6%	31,8%	13,3%	50,0%
12	Mistral Large 2512	64,5	26,6%	40,5%	13,3%	40,0%
13	Gemma 3 12B	66,5	30,0%	41,5%	20,0%	40,0%
14	GLM-4.7	76,0	36,7%	41,4%	16,7%	56,7%
15	Qwen3 235B	78,5	41,7%	44,0%	16,7%	66,7%
16	Gemini 3 Pro	80,0	50,0%	30,4%	30,0%	70,0%
17	Llama 4 Maverick	84,5	40,0%	53,6%	26,7%	53,3%
18	GPT-OSS 20B	86,0	45,0%	44,9%	26,7%	63,3%
19	Qwen3 14B	88,5	51,6%	38,8%	40,0%	63,3%
20	Claude Sonnet 4.5	90,5	41,7%	48,0%	16,7%	66,7%
21	Qwen3 8B	92,5	50,0%	50,0%	43,3%	56,7%
22	Cogito V2.1 671B	93,0	51,6%	46,1%	23,3%	80,0%
23	OLMo 3 7B	94,0	53,4%	49,4%	40,0%	66,7%
24	GPT-5	94,5	58,4%	38,0%	36,7%	80,0%
25	GPT-OSS 120B	95,5	51,6%	46,1%	33,3%	70,0%
26	Qwen3 32B	104,5	43,4%	72,1%	30,0%	56,7%
27	Gemma 3 4B	127,0	50,0%	85,3%	36,7%	63,3%
28	GPT-5.2	143,5	76,7%	72,8%	63,3%	90,0%
29	Kimi K2 Thinking	148,5	81,7%	69,7%	70,0%	93,3%

Tabell 1: Komplett leaderboard sorterad på NPS (lägre = bättre). Gold Rate = andel bra lösningar som onödigt reviderades. Self-Corr = andel gånger modellen reviderar sin egen revidering. Soft/Hard Gold visar Gold Rate uppdelat per läge. Topp 3 markerade gröna, botten 3 markerade röda.

Resultat 2: Känslighet för strängare instruktioner

Här tittar vi på den onödiga revisionsgraden på Gold, alltså risken för falsklarm när granskningsinstruktionen skärps från Soft till Hard mode. Den här mätningen avslöjar hur stabil modellens omdöme är under press.

Panic Index: Soft vs Hard mode Figur 2: Varje modell visas med sin Gold Nitpick Rate i Soft Mode (vänster) och Hard Mode (höger). Längden på linjen visar hur mycket modellen påverkas av strängare instruktioner. Korta linjer = stabil granskare.

Den globala effekten är dramatisk:

16,7%

Median onödiga revideringar i Soft Mode

56,7%

Median onödiga revideringar i Hard Mode

Det är en ökning med över tre gånger. I Hard Mode underkänner den typiska modellen mer än hälften av alla Gold lösningar, trots att de redan håller hög kvalitet. Men skillnaderna mellan modellerna är enorma.

Robustast: Claude Opus 4.5 förändras minimalt, från 3,3% till 10,0%, en ökning med bara 6,7 procentenheter. Den behåller sitt omdöme även under press.

Mest volatil: Cogito V2.1 671B går från 23,3% till 80,0%, en ökning med 56,7 procentenheter. Claude Sonnet 4.5 visar ett liknande mönster: från rimliga 16,7% i Soft till 66,7% i Hard. En modell som i normalläget fungerar bra som granskare tappar helt sitt pragmatiska omdöme under strängare instruktioner.

Modell	Soft Gold	Hard Gold	Skillnad
Claude Opus 4.5	3,3%	10,0%	+6,7
Llama 3 8B	6,7%	13,3%	+6,6
Gemini 3 Flash	6,7%	16,7%	+10,0
Gemma 3 27B	6,7%	16,7%	+10,0
GPT-5.1	10,0%	36,7%	+26,7
Gemini 3 Pro	30,0%	70,0%	+40,0
GPT-5	36,7%	80,0%	+43,3
Claude Sonnet 4.5	16,7%	66,7%	+50,0
Cogito V2.1 671B	23,3%	80,0%	+56,7
Kimi K2 Thinking	70,0%	93,3%	+23,3

Tabell 2: Utvalda modeller sorterade efter Soft Gold Rate. Skillnaden visar ökningen i procentenheter. Grönt = stabil, gult = moderat, rött = kraftigt påverkad.

Resultat 3: Rekursiv granskning

Self Correction Rate mäter hur ofta modellen fortsätter att vilja ändra sin egen förbättring. Det fångar svårigheten att stänga loopen under press. En hög siffra innebär att modellen i princip aldrig tycker att det den just producerade var bra nog.

Self-Correction: Soft vs Hard mode Figur 3: Dumbbell-plot som visar Self Correction Rate per modell i Soft (vänster) vs Hard (höger) mode. Längre linjer = större instabilitet under press.

GPT-5.2 är extremfallet: I Hard Mode underkänner den sin egen revidering i nästan 87% av fallen. Det innebär att modellen i princip aldrig är nöjd med sitt eget arbete. En granskningsloop med GPT-5.2 under hög press blir i praktiken en ändlös kedja av kosmetiska justeringar.

Modell	Soft Self-Corr	Hard Self-Corr	Skillnad
Gemini 3 Flash	8,6%	12,5%	+3,9
Claude Opus 4.5	11,4%	17,5%	+6,1
GPT-5.1	13,2%	45,7%	+32,5
DeepSeek V3-0324	17,9%	33,3%	+15,4
Gemini 3 Pro	22,0%	38,8%	+16,8
Claude Sonnet 4.5	22,7%	73,2%	+50,5
Cogito V2.1 671B	22,2%	70,0%	+47,8
Kimi K2 Thinking	53,7%	85,6%	+31,9
Gemma 3 4B	81,7%	88,9%	+7,2
GPT-5.2	58,5%	87,1%	+28,6

Tabell 3: Utvalda modeller sorterade efter Soft Self-Correction Rate. Grönt = stänga loopen snabbt, gult = moderat, rött = fastnar i ändlösa revideringar.

Analys per domän

Intressant nog varierar modellernas beteende kraftigt beroende på domän. I Soft Mode ser vi tydliga mönster:

Domän	Median NPS	Median Gold Rate	Median Self-Corr	Mean Stuck
Kod	18	0%	44,4%	1,9
Kommunikation	18	20%	26,7%	0,8
Livsstil	16	20%	7,7%	1,0

Tabell 4: Domänstatistik (Soft Mode). Stuck = genomsnittligt antal gånger en modell fastnade vid max iterationer.

Mönstret är intressant. Kod har den lägsta Gold Rate (modellerna underkänner sällan bra kod direkt) men den högsta Self Correction Rate (när de väl börjar revidera kod har de svårast att sluta). Livsstil har omvänt mönster: högre Gold Rate men mycket låg Self Correction.

En möjlig tolkning är att kod har tydligare objektivt rätt och fel, så modellerna tvekar mer innan de underkänner. Men kodens komplexitet gör det svårare att avgöra när en revidering är "klar". Livsstilsfrågor har mer subjektiva kvalitetskriterier, men en gång reviderad accepterar modellerna resultatet snabbare.

I Hard Mode exploderar siffrorna. Median Gold Rate för kod stiger från 0% till 43,3%. Kommunikation går från 20% till 66,7%. Modellerna reagerar dramatiskt på strängare instruktioner oavsett domän.

Noterbart: storlek och förmåga hänger inte ihop

Ett slående resultat är att modellstorlek och generell "intelligens" inte förutsäger pragmatiskt omdöme. GPT-5, en av de mest kapabla modellerna i testet, hamnar på plats 24 av 29 med en Gold Rate på 58,4%. Claude Sonnet 4.5, som i många andra benchmarks presterar i topp, hamnar på plats 20 med en Gold Rate på 41,7%.

Samtidigt hamnar Llama 3 8B, en relativt liten modell, på plats 4 med bara 10,0% Gold Rate. Och Gemma 3 27B, inte heller en frontier modell, tar tredjeplats.

Det antyder att nitpick paradoxen inte handlar om kapacitet utan om kalibrering. Vissa modeller har helt enkelt tränats eller finjusterats på ett sätt som gör att de hellre föreslår en ändring än att stå fast vid ett godkännande.

Metodik

29 modeller testades via OpenRouter API med temperatur 0
60 frågor (30 Gold + 30 Bad) inom tre domäner (kod, kommunikation, livsstil)
Rekursiv loop med max 3 iterationer per fråga
Varje iteration utan konversationshistorik (modellen ser bara den senaste versionen)
Två lägen: Soft Mode (låg insats) och Hard Mode (hög insats)
Alla modellers reviderade texter validerades med en separat LLM-validator (Grok 4.1 Fast) för att säkerställa att de följde output-kontraktet
NPS formeln: Gold Revised(1) + Gold Extra Loops(1) + Bad Extra Loops(1) + Bad Approved at Iter 0(5)
Ingen modell fick se fler än en fråga åt gången och ingen konversationshistorik bevarades mellan iterationer

Slutsats

Resultaten visar att "smartare" modeller inte nödvändigtvis är bättre beslutsfattare. Många lider av nitpick paradoxen, och när insatsen höjs tappar de helt förmågan att vara pragmatiska.

Lärdomen för oss som arbetar med AI är att det finns en risk i att alltid be modellen om "lite mer kritik" på ett bra mejl eller en bit kod. Du får inte alltid en förbättring. Du kan istället fastna i en loop av ändringar som mest är subjektiva, där varje ny version bara är annorlunda, inte bättre.

Om du bygger agentiska system med granskningsloopar är modellvalet avgörande. Inte den smartaste modellen, utan den mest kalibrerade. Claude Opus 4.5 och Gemini 3 Flash visar att det går att kombinera hög kapacitet med pragmatiskt omdöme. Andra modeller, däribland flera av marknadens dyraste, visar att kapacitet utan kalibrering kan ge sämre resultat än enklare alternativ.

Ibland är "good enough" faktiskt bäst.