Vad forskningen faktiskt säger om AI:s hallucinationer - och vad det betyder för HSEQ

En stor studie mätte hur ofta AI hittar på svar när svaret inte finns i dokumentet. Resultaten är obekväma för alla som använder AI-verktyg i kvalitets-, miljö- eller säkerhetsarbetet.

Vad forskningen faktiskt säger om AI:s hallucinationer - och vad det betyder för HSEQ

Det finns en sak AI-verktyg är riktigt bra på i HSEQ-arbetet: att låta som om de vet vad de pratar om.

Det är också problemet.

En studie publicerad i mars 2026 mätte hur ofta stora språkmodeller1 hittar på svar när de svarar på frågor utifrån dokument - specifikt när svaret inte finns i källmaterialet. 35 modeller, tusentals körningar, totalt 172 miljarder tokens2 processat. Resultaten är värda att känna till om du använder AI för att analysera rutiner, sammanfatta revisionsunderlag eller söka i policydokument.

Vad studien mätte

Forskarna skapade ett system de kallar RIKER3. Grundidén: börja med kända svar, bygg dokument från dem, ställ sedan frågor - inklusive frågor om saker som medvetet inte finns i dokumentet.

Den sista kategorin kallas “hallucination probes”4 i studien. Konkret: AI:n får ett dokument, och användaren frågar om en person, ett ansvar eller ett fält som inte nämns någonstans i det. Rätt svar är “det finns inget om det här i dokumentet.” Fel svar är att svara med säkerhet på något påhittat. Studien mäter hur ofta fel svar inträffar.

Det är en situation som alla som jobbar med kvalitet, miljö eller arbetsmiljö hamnar i hela tiden, fast oavsiktligt: du frågar om en handlingstid som inte är definierad, ett ansvar som ingen tilldelat, ett krav som rutinen faktiskt inte täcker. En LLM har ingen intern uppfattning om vad som saknas - den genererar nästa sannolika token, oavsett om svaret finns i källan eller inte.

Siffrorna

Vid kortare dokument (32 000 tokens, ungefär 50-60 sidor text) hittade den bästa modellen på svar i 1,19% av dessa testfrågor. Bara 2 av 35 testade modeller klarade sig under 5%. De flesta topplacerade modeller låg på 5-7%.

Dessa siffror är bästa möjliga utfall per modell, uppmätta vid den temperaturinställning som gav lägst hallucineringsfrekvens. Vid standardinställningar är siffrorna generellt sett högre.

1-2% låter kanske inte mycket. Men det är inte samma sak som att en erfaren kollega gör fel i 2% av sina bedömningar. Den kollegan tvekar när något inte stämmer, ställer en följdfråga, känner igen när ett svar verkar orimligt. En LLM gör ingen sådan avvägning. Om du ber den sammanfatta olycksstatistik och svaret borde vara 10 men dokumentunderlaget är otydligt, skriver den 0 med samma säkerhet som den skulle skriva 10. Ingen varningsflagga. Inget tvivel.

Längre dokumentmängder gör det värre. Mycket värre.

Vid 128 000 tokens (runt 200 sidor, ungefär Harry Potter och de vises sten) nästan tredubblades andelen påhittade svar för de flesta modeller. Den kontextlängden är relevant inte när en människa manuellt klistrar in text (det gör ingen) utan när AI-agenter automatiskt drar in källor: crawlar ett intranät, kopplar till ett dokumenthanteringssystem, hämtar alla relevanta rutiner inför ett svar. Då sker det utan att du ser hur mycket som matas in.

Vid 1 000 000 tokens5 (ungefär alla sju Harry Potter-böckerna samlat, och kontextfönstret för de största modellerna från OpenAI och Anthropic per mars 2026) testades de modeller som klarar lång kontext. Inte en enda stannade under 10% fabrication vid 200 000 tokens. Bästa modellen: 10,25%. Medianen låg runt 25% vid kortare kontextlängder och försämrades därifrån. Studien testade upp till 200 000 tokens, men trenden pekar inte uppåt.

Den viktigaste insikten: att hitta fakta och att uppfinna fakta är inte samma sak

Det här är studiens mest kontraintuitiva fynd.

En modell kan vara bra på att extrahera information från dokument och samtidigt dålig på att undvika att uppfinna information som inte finns. Llama 3.1 70B6 hade 90% träffsäkerhet på frågor vars svar faktiskt existerade i dokumentet. Samma modell hittade på svar i nära hälften av fallen (49%) när svaret inte fanns.

Det är inte ett tecken på att modellen är dum. Det är en konsekvens av hur LLM:er fungerar: de genererar nästa sannolika token givet allt som kommit före. När svaret finns i dokumentet råkar det sannolika svaret matcha det faktiska - hög träffsäkerhet. När svaret inte finns i dokumentet fortsätter samma mekanism, och genererar nu det typiska svaret på den typen av fråga utifrån träningsdata - vilket för HSEQ-dokument kan vara ett välformulerat, trovärdigt och helt påhittat svar om handlingstider, ansvarsroller eller kravuppfyllnad.

“Förstå vad som står i ett dokument” och “avgöra när svaret saknas” är med andra ord två helt separata egenskaper.

Vad det betyder i praktiken för HSEQ-arbete

De tre vanligaste scenarierna:

Scenario 1: Du klistrar in en policy och ber AI:n svara på specifika frågor om den

Om det du frågar om finns tydligt beskrivet: fungerar bra. Problemet uppstår när du frågar om något som borde finnas men faktiskt inte gör det. AI:n svarar ändå, med ett svar som låter rätt men är påhittat.

Typexempel: “Vad är vår handlingstid för avvikelser klass 2?” Om det inte finns definierat i dokumentet du klistrat in, men liknande strukturer finns, konstruerar AI:n ett svar utifrån vad som “borde” stå.

Konsekvens: Du tror att rutinen täcker det. Den gör det inte.

Scenario 2: Du matar in stora mängder dokument för sammanfattning eller sökning

Ju mer text, desto sämre. Det är ett direkt resultat av studien. Om du laddar upp 150 sidor internt material och sedan frågar vad som gäller, ökar risken för påhittade svar markant.

Det är ingen slump att övergripande frågor, “vad gäller generellt för X enligt våra rutiner?”, är svårast. De kräver att AI:n håller ihop information från många ställen - och det är exakt den uppgift som kollapsar snabbast vid längre dokument.

Scenario 3: Du ber AI:n kontrollera om ett dokument uppfyller ett krav

“Uppfyller vår riskbedömning kraven i ISO 45001 klausul 6.1.2?”

Studien stödjer en viktig slutledning här: om kravet faktiskt inte är uppfyllt, det vill säga om svaret “ja” saknar täckning i dokumentet, är risken stor att AI:n ändå svarar “ja”. Falsk trygghet är det farligaste utfallet.

Vad du kan göra

Forskarnas egna slutsatser, omskrivna för HSEQ-sammanhang:

Håll kontexten kort. Klistra in ett specifikt avsnitt ur din interna rutin och ställ en specifik fråga om det. Ju kortare dokument, desto lägre risk att AI:n konstruerar svar som inte finns. (ISO-standarder är upphovsrättsskyddade7 och ska inte kopieras in i externa AI-verktyg - arbeta med era egna interna dokument och tolkningar av kraven.)

Fråga specifikt, inte generellt. “Finns det ett definierat ansvar för beredskapsplanering i detta dokument?” är bättre än “Vad gäller för beredskapsplanering?” Den första frågan har ett binärt svar. Den andra bjuder in AI:n att fylla luckor.

Testa AI:n med fällor. Fråga om något du vet inte finns i dokumentet. Om AI:n svarar med säkerhet, ta det som ett varningstecken för hela sessionen. Det är ett enkelt kalibringstest och precis den metodik studien bygger på.

Verifiera alltid källorna. Om AI:n pekar på att “klausul 4.3 specificerar detta”, gå dit och läs det. AI:n kan ha rätt om var det står och fel om vad det säger. Eller rätt om vad det säger och fel om att det ens finns.

Byt inte modell och tro att problemet försvinner. Studien visar att vilken modellfamilj8 du väljer förutsäger hallucineringsbenägenhet bättre än modellstorlek. Men ingen leverantör publicerar jämförbara hallucinationsdata som du kan använda för att fatta ett informerat köpbeslut. Studien testade bara öppna modeller - inte GPT, Copilot eller Gemini. Behandla alla AI-verktyg med samma verifieringsdisciplin.

Det ingen vill säga högt

AI-verktyg säljs med löften om att spara tid och minska fel. Det kan de. Men i dokumentanalys, där rätt svar beror på vad som faktiskt står i ett specifikt dokument, finns en felkategori de flesta inte räknar med.

Det handlar inte om att AI:n är osäker och signalerar det. En LLM har ingen osäkerhetskänsla att signalera. Den producerar ett svar som ser ut som alla andra svar, oavsett om det finns stöd i dokumentet eller inte.

Studien testade 35 modeller i tusentals körningar, totalt 172 miljarder tokens processat. Även under de bästa betingelserna - korta dokument, bästa tillgängliga modell - hittade AI:n på svar i nästan vart hundrade fall. Vid längre dokument, som är mer typiska i verkligt HSEQ-arbete, är frekvensen avsevärt högre.

Använd AI i HSEQ-arbetet. Det finns goda skäl att göra det. Men verifiera det som är verifierbart, testa modellens beteende aktivt, och lita aldrig blint på ett AI-svar om något du inte kan bekräfta i källan.

Styrning av AI börjar med ett ledningssystem

Den här studien handlar om en specifik risk: hallucination vid dokumentanalys. Men hallucination är bara en av många risker med AI i verksamheten. Vem får använda vilka AI-verktyg? Hur hanteras personuppgifter som matas in? Vad händer när anställda bygger egna AI-lösningar utan IT:s vetskap?

ISO 42001 ger ett ramverk för att styra AI-användning i organisationen - från riskbedömning till policy och uppföljning. EU AI Act ställer krav på det, och gäller inte bara techbolagen utan er som använder AI-systemen.

Om din organisation använder AI i HSEQ-arbetet, och det gör de flesta vid det här laget, är frågan inte om ni behöver ett strukturerat förhållningssätt utan när ni formaliserar det.


Studien som refereras: “How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms” (arXiv:2603.08274, mars 2026)

Footnotes

  1. LLM står för Large Language Model - stor språkmodell. Det är den teknik som driver verktyg som ChatGPT, Copilot och Gemini. De tränas på enorma mängder text och lär sig att generera sammanhängande språk, men de “förstår” inte text i mänsklig mening. Viktigt: Studien testade enbart öppna modeller (open-weight), inte GPT-4, Copilot eller Gemini. Det finns inga publicerade motsvarande hallucinationsdata för dessa slutna modeller. Siffrorna i den här artikeln gäller öppna modeller; slutna modeller kan prestera bättre eller sämre.

  2. En token är den minsta textenhet en LLM arbetar med - ungefär 0,75 ord på engelska, något kortare på svenska. “Token” är inte samma sak som ord: ett långt ord kan vara flera tokens, ett kort ord kan vara ett. 32 000 tokens motsvarar ungefär 50-60 sidor löptext. “Nästa sannolika token” är den tekniskt korrekta formuleringen av det som i artikeln ibland förenklas till “nästa ord”.

  3. RIKER (Retrieval Intelligence and Knowledge Extraction Rating) är ett utvärderingsramverk som forskarna själva utvecklat. Det är inte ett etablerat industristandardverktyg utan en metod för att mäta hallucination utan att förlita sig på andra AI-modeller som domare. Pappret beskriver RIKER som en “paradigm inversion”: i stället för att extrahera känd fakta ur verkliga dokument genereras dokument från känd fakta, vilket ger deterministisk poängsättning i godtycklig skala.

  4. Hallucination probes - på svenska ungefär “hallucinationstest” - är frågor där rätt svar per definition är “det finns ingen information om detta i dokumentet.” Varje annat svar är en hallucination. Det är inte en bedömningsfråga, utan deterministiskt mätbar.

  5. GPT-5.4 (OpenAIs flaggskeppsmodell per mars 2026) har ett kontextfönster på 1 000 000 tokens. Claude Opus/Sonnet 4.6 (Anthropic) har 1 000 000 tokens. Källa: platform.openai.com/docs/models, docs.anthropic.com/en/docs/about-claude/models/overview (hämtad mars 2026).

  6. Llama 3.1 70B är en öppen AI-modell från Meta med 70 miljarder parametrar. “70B” syftar på antalet parametrar, ett mått på modellens storlek. Studien testade 35 modeller från sju modellfamiljer: Qwen (Alibaba), GLM (Tsinghua/Zhipu), Llama (Meta), DeepSeek, MiniMax, Granite (IBM) och Qwen3 MoE-varianter.

  7. Modellfamilj syftar på grupper av modeller som delar arkitektur och träningsmetodik. Llama-familjen (Meta), GLM-familjen (Tsinghua/Zhipu) och Qwen-familjen (Alibaba) beter sig olika i studien, och familjetillhörighet är en bättre förutsägare av hallucinationsbenägenhet än enbart modellstorlek.

Relaterade artiklar

AI-agenter och ledningssystem: hype, verklighet och vad vi faktiskt byggt

AI-agenter och ledningssystem: hype, verklighet och vad vi faktiskt byggt

Shadow AI: chefer bygger egna verktyg utan IT:s vetskap

Shadow AI: chefer bygger egna verktyg utan IT:s vetskap

GDPR och AI-verktyg: det är lättare än du tror att bryta mot reglerna

GDPR och AI-verktyg: det är lättare än du tror att bryta mot reglerna