LLM, som står för Large Language Model, är ett av de mest nämnda begreppen i dagens tekniklandskap. Men vad är det egentligen, och vad skiljer en stor språkmodell från alla andra program som hanterar text?

Den korta versionen: en LLM är ett neuralt nätverk tränat på enorma mängder text. Den har lärt sig att förutsäga nästa ord. Och den enda uppgiften, utförd i tillräcklig skala, räcker för att producera system som kan resonera, svara på frågor och lösa komplexa problem. Det är en av de mest kontraintuitiva insikterna i modern AI, och det är en bra startpunkt.

Kort svar

En LLM är ett neuralt nätverk tränat på text i massiv skala, med förmågan att förstå och generera språk på ett sätt som liknar mänskligt resonemang.

Varför det spelar roll

LLM är grunden i de flesta AI-system som byggs idag, från chatbotar och dokumentanalys till autonoma AI-agenter och kodverktyg.

Vanligt missförstånd

Att en LLM "vet" saker på samma sätt som en sökmotor. En språkmodell genererar troligt nästa token, den söker inte upp fakta.

Vad är en språkmodell och en LLM?

Begreppet "språkmodell" beskriver ett system som modellerar sannolikhetsfördelningen över text: givet en sekvens av ord, hur sannolikt är det att nästa ord är X? Det låter enkelt, och i sin grundform är det det.

En stor språkmodell (LLM) är en språkmodell i en annan storleksklass. Miljarder parametrar. Tränad på hundratals miljarder eller biljoner tokens hämtade från internet, böcker, kod och vetenskapliga artiklar. Träningen kräver tusentals GPU:er under månader och kostar miljontals dollar.

Det är skalan, inte principen, som skapar förmågorna. Och det är också varför de kallas stora språkmodeller.

Vad betyder 7B, 70B och parametrar i praktiken?

När man pratar om modellstorlek syftar man ofta på antalet parametrar. Parametrarna är de vikter modellen har lärt sig under träningen. När träningen väl är klar är dessa värden i huvudsak fastställda, och inferensen, alltså själva användningen av modellen, handlar om att köra input genom alla lager med dessa vikter och beräkna nästa token steg för steg.

Det betyder att varje svar i praktiken är resultatet av en mycket stor mängd matrisoperationer. För varje nytt token måste modellen läsa sin kontext, köra den genom nätverket och räkna fram sannolikheten för nästa möjliga token. Det är därför inferens är så beräkningstungt, även när modellen redan är färdigtränad.

Här blir hårdvaran avgörande. En CPU kan köra en språkmodell, men den är mycket sämre på den massiva parallellism som de här beräkningarna kräver. En GPU eller annan accelerator är byggd för att göra väldigt många sådana operationer samtidigt, vilket gör inferens dramatiskt snabbare. Det är därför moderna språkmodeller nästan alltid körs på GPU:er eller liknande specialiserad hårdvara.

Minnet är den andra stora begränsningen. För att inferensen ska gå snabbt vill man att modellens vikter ska få plats i snabbt minne på acceleratorn, ofta VRAM eller HBM. Vanliga konsumentkort ligger ofta någonstans runt 8 till 24 GB VRAM, vilket gör dem användbara för mindre open-weight-modeller, eller för kvantiserade modeller som pressats ned i storlek. Större modeller kräver däremot betydligt mer minne, ibland flera GPU:er samtidigt, eller olika former av offloading som gör körningen långsammare.

Det är också här det blir viktigt att vara noggrann med vad modellstorlek faktiskt betyder. På open-weight-sidan ser man ofta namn som 7B, 13B, 70B eller 405B, alltså ungefär så många miljarder parametrar. På closed-source-sidan, till exempel ChatGPT, Gemini och Claude, är parameterantalet däremot ofta inte offentligt. Vissa moderna modeller använder också mixture-of-experts, vilket gör att det totala parameterantalet inte alltid säger hela sanningen om hur tung modellen är att köra eller hur mycket som aktiveras per token.

Det innebär att det du upplever som "ChatGPT" på din dator i själva verket normalt inte körs på din egen maskin. När du skriver till ChatGPT, Gemini eller Claude skickas din förfrågan till leverantörens servrar, modellen körs där på stora kluster av acceleratorer, och svaret skickas sedan tillbaka till dig. Det är en viktig praktisk skillnad mot mindre open-weight-modeller, som faktiskt kan köras lokalt om de får plats i den hårdvara du har tillgänglig.

Tre typer av uppgifter

Inte alla språkmodeller gör samma sak. Det finns tre grundläggande typer av uppgifter som modeller kan vara byggda för:

Klassificering

En etikett per text

Modellen tar en text och sätter en etikett på den. Positiv eller negativ? Vilket ämne? Vilken avsikt? Ett svar, inte ett resonemang.

BERT · DistilBERT · RoBERTa

Märkning och extraktion

Etiketter på delar av texten

Modellen markerar delar av texten eller sätter flera etiketter där det behövs. Det kan handla om ordklasser, namn på personer och bolag eller annan strukturerad information som ska plockas ut.

BERT-varianter · RoBERTa · token classification

Generering

Ny text som output

Modellen producerar ny text, svar, sammanfattningar, kod och analyser. Det är detta de flesta menar med "AI" idag. Fokus för resten av den här artikeln.

GPT-4o · Claude · Gemini · Llama

Klassificering och märkning är kraftfulla för specifika, avgränsade uppgifter. Men det är generering som driver de flesta moderna affärsapplikationer, och det vi fokuserar på härifrån.

Transformerfamiljen: tre arkitekturer

Nästan alla moderna språkmodeller bygger på samma grundläggande arkitektur: Transformern, introducerad i pappret "Attention is All You Need" (2017). Men transformerarkitekturen används på tre olika sätt, med tydligt olika styrkor:

Encoder-only

BERT-familjen

Läser hela texten på en gång och bygger en rik representation. Utmärkt för klassificering, entitetsigenkänning och semantisk sökning. Kan inte generera text.

BERT · DistilBERT · RoBERTa

Encoder-decoder

T5-familjen

Kodar indata och avkodar till utdata. Bra för uppgifter med tydlig indata-utdata-struktur: översättning, sammanfattning, strukturerad transformation av text.

T5 · mT5 · BART

Decoder-only

GPT-familjen

Genererar text token för token. Har visat sig skala exceptionellt bra, fler parametrar och mer data ger ofta bättre förmågor. Arkitekturen bakom nutidens AI-revolution.

GPT-4o · Claude · Gemini · Llama

Varför fick decoder-only så stort genomslag? För generativa användningsfall har den här arkitekturen visat sig skala exceptionellt bra. Varje ny generation GPT-modeller har bekräftat att fler parametrar och mer träningsdata ofta leder till bättre förmågor, ett mönster som varit särskilt tydligt i decoder-only-familjen.

Hur tränas en LLM?

Förträning i skala

Grunden för en LLM är förträning: modellen exponeras för enorma mängder text och lär sig att förutsäga nästa token. Inte ett specifikt svar. Inte en specifik uppgift. Bara: givet allt som kom före, vad är mest sannolikt härnäst?

Det sker över biljoner tokens, från böcker, webbsidor, kod, vetenskapliga artiklar och diskussionsforum. Träningen tar veckor på tusentals specialiserade GPU:er och kostar miljontals dollar. Det är anledningen till att det är ett fåtal laboratorier i världen som tränar modeller i frontklassen.

Attention, varför transformers förändrade allt

Tidigare arkitekturer, som RNN och LSTM, processade text sekventiellt, ett ord i taget, med begränsat minne bakåt. Långa texter var ett problem. Modellen "glömde" tidiga delar.

Transformern löste detta med self-attention: för varje token beräknar modellen hur relevant varje annan token i hela sekvensen är. Inte bara grannarna, utan alla. Ordet "den" i slutet av en mening kan kopplas direkt till subjektet tjugo ord tidigare. En referens i ett stycke kan kopplas till definitionen i ett annat.

Det är detta som låter moderna modeller hantera kontexter på hundratusentals tokens och förstå komplexa beroenden i långa dokument. Titeln "Attention is All You Need" var ett provokativt påstående 2017, och det visade sig stämma.

Self-attention, varje token kopplas direkt till alla andra, oavsett avstånd

Tjockleken på linjen visar hur starkt mattan uppmärksammar varje token, inklusive katten tidigt i meningen

Mer än att förutsäga tokens: emergent kunskap

Det som gör LLM fascinerande, och ibland svårförstådda, är att inga förmågor programmeras in explicit. Modellen tränas enbart på nästa-token-prediktering. Ändå uppstår:

Faktakunskap om världen
Logisk slutledning och resonemang
Förmåga att skriva och debugga kod
Förståelse för intentioner och kontext
Flerspråkig översättning

Det kallas emergent förmåga: kapaciteter som uppstår ur träning i stor skala utan att ha tränats på direkt. Det förklarar varför en LLM kan besvara frågor den aldrig "sett svaret på". Det förklarar också varför den ibland genererar troliga men felaktiga svar. Modellen har en inbyggd modell av världen, men den söker inte upp fakta. Den genererar vad som statistiskt är nästa sannolika token.

Instruction tuning: från råmodell till AI-assistent

En förtränad modell vet inte hur man för ett samtal. Den fortsätter text, inte mer. För att göra den till en assistent som svarar på frågor och följer instruktioner används instruction tuning: ett extra träningssteg med mänskligt annoterade exempel på bra och dåliga svar, ofta kompletterat med RLHF, reinforcement learning from human feedback.

Det är detta steg som skapade ChatGPT som produkt ur GPT-4 som modell. Vill du anpassa beteendet ytterligare för din verksamhet är nästa steg finetuning.

Hur genererar en LLM text?

Genereringen sker token för token. Modellen tar all föregående text, din fråga plus allt den svarat hittills, och beräknar sannolikheten för varje möjlig nästa token. Den väljer ett, med lite slumpmässighet styrd av temperature, och lägger till det i sekvensen. Sedan börjar om. Token för token tills svaret är klart.

Autoregressiv generering, token för token tills svaret är klart

Det har tre praktiska konsekvenser du bör känna till:

Längre indata kostar mer. Modellen processar hela kontexten för varje ny token den genererar.
Kontextfönstret är ett tak. Ryms för mycket i kontexten faller det äldsta bort.
Hallucination är inbyggt. Modellen väljer alltid ett troligt nästa token, även när det rätta svaret vore "vet inte".

Vad är en token?

En token är inte ett ord. Det är ett textstycke, ibland ett ord, ibland en del av ett ord, ibland ett skiljetecken eller ett mellanslag. Hur text delas upp i tokens påverkar direkt kostnad, kvalitet och hur modellen uppfattar din input. Vill du gå djupare i varför modeller använder tokens i stället för ord eller rå binärdata kan du läsa vår fördjupning om tokenizer.

Interaktiv Tokenizer

47 antal tecken: 10 antal ord: 14 tokens

Token Representation

AI␣läser␣inte␣ord␣som␣vi␣gör.␣Den␣läser␣tokens.

Encoding: cl100k_base•via gpt-tokenizer

Skriv valfri text och se hur den delas upp i tokens, och vad det innebär för kostnad och bearbetning.

Kontextfönstret

Allt som modellen kan "se" när den genererar ett svar ryms i kontextfönstret. Din instruktion, konversationshistorik och inlästa dokument konkurrerar om samma utrymme. Det som inte ryms kan modellen inte ta hänsyn till. Vill du gå djupare i vilka tokens som faktiskt räknas, varför det kostar pengar och varför context engineering blivit så viktigt kan du läsa vår fördjupning om kontextfönstret.

Laddar visualisering...

Kontextfönstret är modellens arbetsminne. Förstå vad som ryms, och vad som faller bort.

Hur använder du en LLM i praktiken?

En LLM är sällan ett färdigt system i sig. Den är grunden som andra lösningar byggs på. Det finns flera huvudsakliga sätt att arbeta med en LLM i ett affärssammanhang:

Ge modellen din data

RAG, Retrieval-Augmented Generation

Istället för att träna om modellen på era dokument hämtas relevant information in vid varje fråga. Modellen svarar baserat på aktuell, korrekt data, inte sina träningsvikter från ett år sedan.

Läs mer om RAG →

Automatisera flöden

AI-agenter

Modellen ges verktyg och kan agera, söka information, köra kod och skriva till system. Istället för att svara på en fråga utför den en uppgift steg för steg med begränsat mänskligt ingripande.

Läs mer om AI-agenter →

Specialisera modellen

Finetuning

När promptning och RAG inte räcker kan modellen vidaretänas på era egna data för att konsekvent följa ett specifikt beteende, tonalitet eller format, varaktigt inbyggt i modellen.

Läs mer om finetuning →

Förstå kostnad och kapacitet

Tokenizer och kontextfönster

Kostnad, kapacitet och kvalitet i ett LLM-system hänger tätt samman med hur tokenisering och kontextfönster fungerar. Centralt för alla som bygger eller utvärderar AI-system.

Läs mer om tokenizer →Läs mer om kontextfönstret →

Sammanfattning

En LLM tränas på att förutsäga nästa token, och ur den enda uppgiften, utförd på tillräcklig skala, uppstår förmågor som ingen explicit programmerade in. Transformerarkitekturen och self-attention är det tekniska genombrott som möjliggjorde detta.

För praktisk användning är tre saker centrala:

En LLM genererar trolig text. Den söker inte upp fakta, vilket gör hallucination till ett inbyggt drag att designa runt.
Allt som inte ryms i kontextfönstret kan modellen inte ta hänsyn till. Det påverkar arkitekturen för alla seriösa system.
Fler tokens kostar mer. Tokenisering påverkar direkt vad ett system kostar att driva i produktion.

Resten handlar om hur du bygger rätt lager runt modellen: RAG för aktuell data, agenter för automation, finetuning för specialisering.