I den här artikeln får du lära dig vad en Confusion Matrix är, hur du läser den, och hur du kan använda den för att utvärdera och förbättra dina AI-modeller i Labelf.
Vad är en Confusion Matrix?
En Confusion Matrix, eller felmatris på svenska, är en tabell som används för att visualisera prestandan hos en klassificeringsmodell. Den visar hur ofta modellen förväxlar olika kategorier med varandra.
Hur Läser Man en Confusion Matrix?
Rader: Varje rad i matrisen representerar en faktisk kategori (vad texten egentligen handlar om).
Kolumner: Varje kolumn representerar en förutsedd kategori (vad modellen tror att texten handlar om).
Celler: Varje cell i matrisen visar antalet texter som tillhör den faktiska kategorin (rad) och som har förutspåtts tillhöra den förutsedda kategorin (kolumn).
Exempel:
Låt oss säga att vi har en modell som ska klassificera kundsamtal i tre kategorier: "Fakturafrågor", "Tekniska problem" och "Abonnemangsfrågor". En Confusion Matrix för den här modellen kan se ut så här:
| Förutsedd: Fakturafrågor | Förutsedd: Tekniska problem | Förutsedd: Abonnemangsfrågor |
Faktisk: Fakturafrågor | 90 | 5 | 5 |
Faktisk: Tekniska problem | 10 | 120 | 20 |
Faktisk: Abonnemangsfrågor | 5 | 15 | 80 |
Tolkning:
Diagonala celler (fetstil): Visar antalet texter som modellen har klassificerat korrekt. Till exempel har modellen korrekt klassificerat 90 faktiska "Fakturafrågor" som "Fakturafrågor", 120 "Tekniska problem" som "Tekniska problem", och 80 "Abonnemangsfrågor" som "Abonnemangsfrågor".
Icke-diagonala celler: Visar antalet texter som modellen har klassificerat felaktigt. Till exempel har modellen felaktigt klassificerat 10 "Tekniska problem" som "Fakturafrågor", och 20 "Abonnemangsfrågor" som "Tekniska problem".
Hur Använder Man Confusion Matrix för att Identifiera Modellens Styrkor och Svagheter?
Hög precision i de diagonala cellerna: Indikerar att modellen är bra på att korrekt klassificera texter i motsvarande kategori.
Höga värden i icke-diagonala celler: Indikerar att modellen har svårt att skilja mellan vissa kategorier. Till exempel, i exemplet ovan har modellen relativt svårt att skilja mellan "Tekniska problem" och "Abonnemangsfrågor".
Mönster i felklassificeringar: Titta efter mönster i de felaktiga klassificeringarna. Finns det vissa kategorier som modellen ofta blandar ihop? Varför?
Hur Använder Man Confidence Score?
Confidence Score (Konfidensnivå): Ett värde mellan 0 och 1 som anger hur säker modellen är på sin klassificering. Ett högre värde innebär att modellen är mer säker.
Reglage i Confusion Matrix: I Labelfs Confusion Matrix finns ett reglage (Confidence Threshold) som du kan använda för att justera konfidensnivån.
Tolkning:
Högt Confidence Score (t.ex. 0.9-1.0): Modellen är mycket säker på sin klassificering.
Lågt Confidence Score (t.ex. 0.5-0.7): Modellen är mer osäker på sin klassificering.
Användning:
Filtrera bort osäkra klassificeringar: Du kan använda reglaget för att filtrera bort klassificeringar med låg konfidens och fokusera på de fall där modellen är mer säker.
Identifiera svåra fall: Leta efter fall där modellen har gjort fel trots ett högt Confidence Score. Dessa fall kan indikera problem med kategoridefinitionerna eller brist på variation i träningsdatan.
Sortera efter osäkerhet: Du kan sortera ärenden efter fallande Confidence Score (d.v.s. hur osäker modellen är) för att identifiera de fall som modellen har svårast för.
Hur Kan Man Förbättra Modellens Prestanda genom att Justera Annoteringen?
När du har analyserat Confusion Matrix och identifierat modellens svagheter kan du vidta följande åtgärder:
Lägg till fler exempel: Om en kategori har få exempel, lägg till fler för att ge modellen mer data att lära sig av.
Fokusera på svåra kategorier: Lägg till fler exempel på de kategorier som modellen har svårast att skilja åt. Använd gärna rekommendationerna i Labelf och sortera efter lägsta Confidence Score i Confusion Matrix.
Förtydliga kategoridefinitionerna: Om modellen ofta blandar ihop två kategorier kan det bero på att kategoridefinitionerna är otydliga eller överlappande. Se över kategoridefinitionerna och försök att göra dem så tydliga och distinkta som möjligt.
Lägg till underkategorier: Om en kategori är för bred kan du dela upp den i flera underkategorier för att göra den mer specifik.
Korrigera felaktiga annoteringar: Gå igenom de texter som modellen har klassificerat felaktigt och korrigera annoteringarna vid behov. Använd "Check Labeling" funktionen för att hitta fel.
Förbättra variationen i data: Se till att det finns tillräckligt med variation i de exempel du annoterar. Använd sökfunktionen och filter för att hitta exempel på olika typer av texter och formuleringar.
Ta bort tvetydiga exempel: Om det finns exempel som är mycket svåra att kategorisera, även för en människa, kan det vara bättre att ta bort dem från träningsdatan. Använd "skip" för att utesluta dessa från träningen.
Exempel:
Om Confusion Matrix visar att modellen ofta blandar ihop "Tekniska problem" och "Abonnemangsfrågor" kan du:
Lägga till fler exempel på båda kategorierna.
Fokusera på att lägga till exempel som tydligt skiljer de två kategorierna åt, till exempel genom att använda sökfunktionen för att hitta samtal där kunden uttryckligen nämner att de har ett tekniskt problem eller en abonnemangsfråga.
Se över kategoridefinitionerna och förtydliga skillnaderna mellan de två kategorierna.
Lägga till underkategorier till "Tekniska problem" och "Abonnemangsfrågor" för att göra kategoriseringen mer detaljerad.
Sammanfattning
Confusion Matrix är ett kraftfullt verktyg för att utvärdera och förbättra AI-modeller i Labelf. Genom att analysera matrisen och använda Confidence Score kan du identifiera modellens styrkor och svagheter, och vidta åtgärder för att förbättra dess prestanda. Kom ihåg att modellträning är en iterativ process, och att det är viktigt att kontinuerligt utvärdera och justera dina modeller för att uppnå bästa möjliga resultat.
I nästa artikel kommer vi att gå igenom hur du kan använda Labelfs funktion "Check Labeling" för att kvalitetssäkra ditt arbete och identifiera eventuella fel i dina annoteringar.