Begreppet tokenizer dyker upp överallt så fort man börjar arbeta med språkmodeller. Det påverkar kostnad, kvalitet, hastighet och hur mycket text en modell faktiskt kan hantera. Ändå är det ofta ett av de minst förklarade lagren i hela LLM-stacken.

Den korta versionen är enkel: en tokenizer är systemet som delar upp text i mindre delar, tokens, och översätter dem till tal som modellen kan arbeta med. Det låter tekniskt, men idén bakom är egentligen rätt intuitiv.

Om du först vill förstå hur stora språkmodeller fungerar i stort kan du börja med vår guide om LLM och språkmodeller. Här går vi djupare i just tokenisering, varför den behövs och varför modeller inte arbetar direkt med ord eller rå binärdata.

Kort svar

En tokenizer delar upp text i tokens och mappar varje token till ett tal. Det är bron mellan mänsklig text och modellens matematik.

Varför det spelar roll

Kontextfönster, prissättning och modellens förmåga att tolka din text mäts i tokens, inte i ord, meningar eller tecken.

Vanligt missförstånd

Att en token är samma sak som ett ord. I praktiken kan en token vara ett ord, en orddel, ett mellanslag eller ett skiljetecken.

Vad är en token?

En token är en textbit som modellen använder som sin grundläggande enhet. Ibland råkar den vara ett helt ord. Ibland är den bara början av ett ord, slutet av ett ord, ett mellanslag eller ett skiljetecken.

Det viktiga är alltså inte om en token ser naturlig ut för oss människor. Det viktiga är att tokeniseringen ger modellen ett praktiskt sätt att representera text som en sekvens av heltal.

Interaktiv Tokenizer

47 antal tecken: 10 antal ord: 14 tokens

Token Representation

AI␣läser␣inte␣ord␣som␣vi␣gör.␣Den␣läser␣tokens.

Encoding: cl100k_base•via gpt-tokenizer

Testa valfri text och se hur den delas upp. Exakt uppdelning beror på vilken tokenizer modellen använder.

Varför använder man tokens i stället för ord?

Det mest intuitiva hade kanske varit att låta modellen arbeta direkt med ord. Men ord är en dålig teknisk kompromiss.

Om varje ord i ett språk skulle få ett eget ID uppstår flera problem direkt:

Ordförrådet exploderar snabbt med böjningar, sammansättningar, namn, stavfel och fackspråk.
Nya eller ovanliga ord blir svåra att hantera om de inte redan finns i vokabulären.
Svenska sammansättningar, kod, produktnamn och blandning av språk gör ett rent ordbaserat system skört.

Med tokens kan modellen i stället återanvända mindre byggstenar. Ett ovanligt ord behöver inte vara okänt bara för att hela ordet aldrig setts tidigare. Det kan delas upp i delar som redan finns i vokabulären.

Ord

Lätt för människor att tänka i, men ger snabbt ett enormt och skört ordförråd.

Tecken eller bytes

Universellt och robust, men sekvenserna blir långa och modellen måste ta många fler steg för att förstå samma text.

Tokens

Den praktiska mittenvägen. Tillräckligt små för att vara flexibla, tillräckligt stora för att hålla sekvenserna kortare.

Varför inte låta modellen arbeta direkt med binärdata?

Det är en rimlig fråga. Datorer arbetar ju i grunden med binära tal, nollor och ettor. Så varför inte bara mata modellen med ren binärdata från början?

Svaret är att det blir väldigt ineffektivt.

Text lagras i datorer som bitar och bytes, ofta via kodningar som UTF-8. Men om en språkmodell skulle arbeta direkt på bitnivå skulle varje liten textsekvens bli väldigt lång. Samma mening skulle kräva många fler steg, och mönster som är självklara i språk skulle bli svårare för modellen att upptäcka.

Ett byte består av 8 bitar. Med 8 bitar kan man representera 256 olika värden, från 0 till 255. För enkla tecken som A, I och ! räcker ett byte var. I UTF-8 får de därför bytevärdena 65, 73 och 33. För tecken som å, ä och ö krävs fler bytes.

Det är därför tokenisering finns. Den bygger en mer meningsfull diskret representation ovanpå rå data. Modellen får fortfarande tal, men på en nivå där språkliga mönster blir mycket mer lärbara.

8 bitar blir ett bytevärde

Exempel: tecknet A

1286432168421

01000001

01000001 betyder 64 + 1 = 65.

Tre enkla tecken i UTF-8

A0100000165

I0100100173

!0010000133

För enkla ASCII-tecken matchar bytevärdena direkt i UTF-8. För många andra tecken krävs fler bytes.

Förenklad pipeline från text till modellinput

1. Text

AI!

2. Bytes

65 73 33

01000001 01001001 00100001

3. Tokens

AI!

4. Token-ID:n

[6157, 0]

Illustrativa ID:n. Poängen är att text först blir bytes, sedan tokens, och till sist heltal som modellen kan arbeta med.

När tokenizer-vokabulären väl är byggd får varje token ett ID. Det är i grunden bara indexet för den token i vokabulären. Därför kan samma text få olika token-ID:n i olika modeller.

Hur går det från text till token-ID:n?

Det sker i flera steg:

Din text läses in som bytes enligt en textkodning.
Tokenizern jämför texten mot sin vokabulär, alltså en lista över vanliga textdelar.
Texten delas upp i de delar som bäst passar den vokabulären.
Varje del ersätts med ett heltal, ett token-ID.

Det är alltså inte så att modellen läser bokstäver eller ord direkt. När texten väl når modellen är den redan förvandlad till en sekvens av tal.

Efter det händer nästa steg i LLM-pipelinen: varje token-ID slås upp i en embeddingtabell och blir en vektor. Därifrån börjar själva modellens matematik.

Hur byggs en tokenizer?

En modern tokenizer skrivs normalt inte manuellt ord för ord. Den lärs fram från stora textmängder.

Den vanliga grundidén är:

Börja från små byggstenar, ofta bytes eller mycket små textenheter.
Gå igenom enorma textkorpusar och mät vilka sekvenser som återkommer ofta.
Slå samman vanliga sekvenser till större enheter.
Upprepa tills man fått en praktisk vokabulär, ofta på tiotusentals eller hundratusentals tokens.

Det är därför vanliga ord ofta blir en enda token, medan ovanliga ord kan delas upp i flera delar. Det är också därför ett mellanslag ibland ingår i början av en token. Tokenizern har lärt sig att vissa mönster återkommer tillsammans.

Många moderna tokenizers bygger på idéer som byte pair encoding, eller liknande statistiska metoder. Den exakta algoritmen varierar, men målet är detsamma: hitta en balans mellan ett rimligt stort ordförråd och rimligt korta sekvenser.

Förenklad bild av byte pair encoding över många merge-rundor

1. Träningsdata

tokentokenstokenizertokenisering

2. Börja smått

token

I en bytebaserad tokenizer börjar man i praktiken från mycket små enheter.

3. Slå ihop vanliga par

tokentokenizer

Frekventa mönster får egna byggstenar eftersom de återkommer om och om igen i datan.

4. Vokabulär och encoding

[token][izer]

Ordet tokenizer kan då delas som [token][izer] i stället för tio separata tecken.

Förenklad illustration. I verkligheten sker detta över enorma textmängder och tusentals merge-rundor.

Poängen är alltså inte att någon manuellt bestämmer att ord som token eller izer ska bli tokens. De uppstår därför att de återkommer tillräckligt ofta i träningsdatan för att vara användbara byggstenar.

Hur används tokens i en LLM?

En språkmodell tar inte emot text direkt. Flödet ser i princip ut så här:

Text skrivs av användaren.
Tokenizern gör om texten till token-ID:n.
Modellen bearbetar sekvensen av token-ID:n.
Modellen förutsäger nästa token-ID.
Token-ID:t avkodas tillbaka till text.

Det är därför LLM:er brukar beskrivas som system som förutsäger nästa token, inte nästa ord. Token är den faktiska enhet modellen arbetar med.

Om du vill förstå det större sammanhanget, alltså varför nästa-token-prediktering räcker för att bygga kraftfulla språkmodeller, läs vidare i vår artikel om stora språkmodeller och LLM.

Varför påverkar tokenisering kostnad och kontextfönster?

Det här är den praktiska delen som många missar.

Språkmodeller prissätts normalt per input-token och output-token. Samtidigt anges modellens kapacitet nästan alltid som ett kontextfönster i tokens. Det betyder att tokenisering direkt styr två centrala frågor. Vill du gå djupare i vad som faktiskt fyller kontexten, hur reasoning-tokens räknas och varför context engineering blivit så viktigt kan du läsa vår fördjupning om kontextfönstret.

Hur dyr en förfrågan blir.
Hur mycket information modellen faktiskt får plats med samtidigt.

Det är också därför samma textmängd inte alltid kostar lika mycket. En kompakt mening kan bli relativt få tokens. Kod, tabeller, JSON, blandade språk eller långa svenska sammansättningar kan bli betydligt fler.

Några praktiska konsekvenser:

En text med få ord kan ändå bli token-tung.
Två modeller kan ge olika tokenantal för exakt samma text, eftersom de använder olika tokenizer.
När kontextfönstret fylls upp är det tokens som räknas, inte ord eller tecken.

Om du bygger system med RAG, långa instruktioner eller mycket konversationshistorik blir det här snabbt avgörande. Då handlar tokenisering inte bara om teori, utan om faktisk systemdesign.

När ska du bry dig mycket om tokenizer?

Om du bara testar en chatbot ibland behöver du sällan tänka särskilt mycket på tokenisering. Men så fort du bygger något mer seriöst blir det viktigt:

när du vill förstå eller optimera kostnad
när du arbetar nära modellens kontextgräns
när du skickar in långa dokument, kod eller tabeller
när du jämför olika modeller och ser att de beter sig olika trots samma input
när du bygger RAG eller agentflöden där mycket text passerar modellen

Sammanfattning

En tokenizer är översättningslagret mellan mänsklig text och modellens matematik. Den delar upp text i tokens och mappar dem till heltal som modellen kan arbeta med.

Det är därför språkmodeller inte jobbar direkt med ord, och inte heller med rå binärdata. Ord är för stela. Binärdata blir för låg nivå och för ineffektivt. Tokens är kompromissen som gör moderna LLM:er praktiskt möjliga.

Och när någon säger att en modell har ett kontextfönster på 128 000, då är det alltid tokens som menas.