Artikel 11: Databalans och variation

Att träna AI-modeller handlar inte bara om att annotera så många texter som möjligt. Det handlar om att göra det på ett smart och genomtänkt sätt. I den här artikeln går vi igenom några viktiga aspekter att tänka på för att säkerställa att dina modeller blir så träffsäkra och användbara som möjligt.

1. Variation i Data - Ge Modellen en Bred Bild

Varför är det viktigt?
En AI-modell lär sig av de exempel den matas med. Om exemplen är för ensidiga eller bara representerar en liten del av verkligheten kommer modellen att få en snedvriden bild av världen och prestera sämre i verkliga situationer.
Tänk dig att du ska lära en AI att känna igen katter. Om du bara visar den bilder på svarta katter kommer den kanske inte att känna igen en vit katt när den ser en.
Hur säkerställer man variation?
- Använd flera olika datakällor: Om möjligt, använd data från olika källor, till exempel både chattkonversationer och telefonsamtal, eller samtal från olika tidsperioder och kundsegment.
- Variera i hur kunderna uttrycker sig: Se till att det finns exempel på samtal där kunderna använder olika ord och fraser för att beskriva samma problem. Använd sökfunktionen med synonymer och olika tempus för att hitta variation.
- Variera i agenternas bemötande: Inkludera exempel på samtal där agenterna använder olika bemötande och lösningsförslag.
- Variera i produkter och tjänster: Om ni har ett brett utbud av produkter och tjänster, se till att det finns exempel som täcker in hela bredden.
- Tänk på olika kundtyper: Inkludera exempel på samtal med olika typer av kunder, till exempel nya och gamla kunder, privatkunder och företagskunder.
- Leta aktivt efter ovanliga exempel: Använd sökfunktionen och filter för att hitta exempel som sticker ut från mängden.
- Använd rekommendationerna: Active Learning systemet är tränat på att hitta variation, så var noga med att titta på rekommendationerna.
Exempel:
- Om du tränar en modell för att identifiera "felaktig debitering" på fakturor, se till att du har exempel på samtal där kunderna använder olika ord och fraser för att beskriva problemet, till exempel:
  - "Jag har blivit debiterad för mycket."
  - "Det står fel belopp på min faktura."
  - "Jag känner inte igen den här debiteringen."
  - "Jag har fått en påminnelseavgift trots att jag har betalat."
  - "Jag har blivit debiterad för något jag inte har beställt."
- Inkludera exempel på samtal där kunderna är arga, frustrerade, lugna, trevliga, osv.
- Inkludera exempel på samtal där agenterna ger bra och dålig service.
- Inkludera exempel på samtal där problemet löses och där det inte löses.

2. Balans Mellan Kategorier - Undvik Snedvridning

Varför är det viktigt?
Om en kategori har betydligt fler exempel än de andra kan det leda till att modellen blir partisk och får svårare att lära sig de mindre vanliga kategorierna.
Tänk dig att du ska lära en AI att skilja mellan äpplen och apelsiner. Om du visar den 1000 bilder på äpplen och bara 10 bilder på apelsiner kommer den att bli mycket bättre på att känna igen äpplen än apelsiner.
Hur säkerställer man balans?
- Använd pie-charten: I modellöversikten i Labelf finns en pie-chart som visar fördelningen av exempel mellan de olika kategorierna. Använd den för att identifiera obalanser.
- Lägg till fler exempel: Om en kategori har för få exempel, försök att hitta fler och annotera dem. Använd sökfunktionen, filter och rekommendationer för att hitta relevanta exempel.
- Ta bort exempel: Om en kategori har betydligt fler exempel än de andra kan du överväga att ta bort en del av dem. Men var försiktig så att du inte tar bort för många eller tar bort exempel som är viktiga för modellens inlärning.
- Skapa underkategorier: Om en kategori är väldigt bred och innehåller många exempel kan du dela upp den i flera underkategorier för att skapa en mer balanserad fördelning.
Exempel:
- Om du har 1000 exempel på "Tekniska problem" men bara 100 exempel på "Fakturafrågor" bör du försöka hitta fler exempel på fakturafrågor.
- Om du har en kategori som heter "Övrigt" som innehåller väldigt många exempel kan du överväga att dela upp den i flera mer specifika underkategorier.

3. Nålen i Höstacken - Hitta de Ovanliga men Viktiga Exemplen

Varför är det viktigt?
Vissa kategorier är ovanliga men ändå viktiga att fånga upp. Till exempel bedrägeriförsök, allvarliga klagomål, eller ovanliga fel på en produkt. Dessa "nålar i höstacken" kan vara svåra att hitta, men de är avgörande för att träna en robust och träffsäker modell.
Hur hittar man dem?
- Använd Active Learning: Labelfs rekommendationssystem är utformat för att hitta just dessa ovanliga exempel. Var noga med att titta igenom och annotera de rekommenderade texterna, även om de tillhör kategorier med få exempel.
- Använd sökfunktionen: Var kreativ med dina sökord och försök att tänka på hur olika kunder kan uttrycka sig. Använd synonymer, omskrivningar, olika tempus och böjningar av ord. Använd "*" för att hitta variationer av ord och fraser. Kombinera sökord med booleska operatorer (AND, OR, NOT) för att göra mer precisa sökningar.
- Använd filter: Använd metadatafilter (t.ex. kö, agent, datum, produkttyp) för att begränsa datamängden och hitta specifika exempel. Leta efter ovanliga kombinationer av metadata som kan indikera en "nål i höstacken".
- Formulera hypoteser: Om du letar efter en specifik typ av text, försök att formulera en hypotes om vilka egenskaper den typen av text har och använd sedan sökfunktionen och filter för att hitta texter som matchar din hypotes.
- Tänk som kunden: Försök att sätta dig in i kundens situation och tänk på hur de skulle kunna uttrycka sig.
- Var uppmärksam på avvikelser: Om du ser något som sticker ut från mängden, ta dig tid att undersöka det närmare. Det kan vara en "nål i höstacken".
- Använd "Confusion Matrix": Identifiera de kategorier som modellen har svårast att skilja åt och leta efter fler exempel på dessa kategorier. Använd lägsta konfidensnivå i matrisen för att hitta ärenden som modellen är osäker på.
- Gå igenom skippade ärenden: Ärenden som skippats kan innehålla värdefulla exempel på ovanliga kategorier eller svåra fall.
Exempel:
- Du vill hitta samtal där kunder har blivit utsatta för bedrägeriförsök. Du kan söka efter specifika ord och fraser som "bedrägeri", "lurendrejeri", "falsk faktura", "okänd debitering", och kombinera dessa med filter för relevanta köer eller tidsperioder.
- Du vill hitta samtal där kunder klagar på en specifik funktion på en ny produkt. Du kan söka efter produktnamnet och funktionsnamnet och filtrera på datum för att se samtal som ägde rum efter att produkten lanserades.
- Du vill hitta samtal där kunder uttrycker extrem frustration. Du kan söka efter förstärkande ord som "fruktansvärt", "oacceptabelt", "aldrig mer", och kombinera dessa med relevanta kategorier eller metadatafält.

4. Luddiga Gränser - Hantera Överlappande Kategorier

Varför är det ett problem?
Ibland kan det vara svårt att dra en tydlig gräns mellan två kategorier. Det kan finnas texter som passar in i båda kategorierna, eller som ligger i ett gränsland mellan dem. Detta kan leda till inkonsekvent annotering och förvirring för modellen.
Hur hanterar man det?
- Förtydliga kategoridefinitionerna: Se till att kategoridefinitionerna är så tydliga och specifika som möjligt. Använd exempel för att illustrera skillnaderna mellan kategorierna.
- Diskutera med teamet: Ha regelbundna diskussioner med dina kollegor och Analysarkitekten om hur ni ska hantera gränsfall. Kom fram till en gemensam tolkning av kategorierna och dokumentera era beslut.
- Använd "Confusion Matrix": Identifiera de kategorier som modellen har svårast att skilja åt och fokusera på att förtydliga gränserna mellan dessa kategorier.
- Överväg att slå ihop kategorier: Om två kategorier är väldigt lika och ofta blandas ihop kan det vara bättre att slå ihop dem till en kategori.
- Överväg att skapa underkategorier: Om en kategori är för bred och innehåller många olika typer av texter kan du dela upp den i flera underkategorier för att göra den mer specifik.
- Använd "Skip" och dokumentera: Använd "Skip"-funktionen för ärenden som är extra svåra att kategorisera och dokumentera varför de är svåra. Använd denna information för att förbättra kategoridefinitionerna.
Exempel:
- Du har en kategori för "Tekniska problem" och en annan för "Användarfel". Det kan vara svårt att avgöra om ett problem beror på ett tekniskt fel eller om kunden har gjort något fel. Diskutera med teamet och förtydliga kategoridefinitionerna, till exempel genom att specificera att "Tekniska problem" ska användas när det är något fel på själva produkten eller tjänsten, medan "Användarfel" ska användas när kunden har gjort något fel själv.
- Du har en kategori för "Missnöjd kund" och en annan för "Allvarligt klagomål". Det kan vara svårt att avgöra var gränsen går mellan dessa två kategorier. Kanske behöver ni omdefiniera dessa kategorier eller slå ihop dem till en.

5. Modellens Förkunskaper - Var Medveten om Inbyggda Bias

Varför är det viktigt?
AI-modeller har en viss förkunskap om språket, baserat på de data de har tränats på. Denna förkunskap kan påverka hur de tolkar vissa ord och fraser, och det är inte säkert att modellens tolkning alltid överensstämmer med din egen.
Hur hanterar man det?
- Var uppmärksam på hur modellen tolkar ord och fraser: Om du märker att modellen ofta gör fel på en viss typ av text, försök att förstå varför. Kan det bero på att modellen har en felaktig förkunskap om ett visst ord eller en viss fras?
- Ge modellen motexempel: Om modellen har en felaktig förkunskap, försök att ge den fler exempel som visar den korrekta tolkningen.
- Använd "Confusion Matrix": Identifiera de kategorier och ord där modellen ofta gör fel och försök att förstå varför.
- Testa med synonymer: Om du misstänker att modellen har problem med ett visst ord, testa att använda synonymer eller alternativa formuleringar och se om det påverkar modellens tolkning.
Exempel:
- Om modellen har tränats på mycket data där ordet "router" oftast förekommer i samband med tekniska problem, kanske den har svårare att förstå att en router också kan vara relaterad till abonnemangsfrågor (t.ex. om en kund vill uppgradera sitt abonnemang och få en ny router). I detta fall behöver du ge modellen fler exempel på samtal där kunder pratar om routrar i samband med abonnemangsfrågor.
- Om modellen har svårt att förstå ironi eller sarkasm kan du behöva ge den fler exempel på texter där dessa språkliga nyanser används.

Sammanfattning

Att träna AI-modeller är en komplex uppgift som kräver både noggrannhet, tålamod och kreativitet. Genom att vara medveten om de utmaningar som finns och använda de strategier och verktyg som beskrivs i den här artikeln kan du bli en mer effektiv Modelltränare och bidra till att skapa träffsäkra och användbara AI-modeller.

Kom ihåg att modellträning är en iterativ process. Det är viktigt att kontinuerligt utvärdera och justera dina modeller och processer för att uppnå bästa möjliga resultat. Var inte rädd för att experimentera och testa nya saker, och glöm inte att kommunikation och samarbete med dina kollegor är nyckeln till framgång!

Bygga och träna en Klassificerare

Artikel 8: Active Learning och Rekommendationer

Artikel 9: Confusion Matrix och Modellutvärdering

Artikel 13: Vanliga Utmaningar och Lösningar

Artikel 12: Tid, Snabbhet och Accuracy, Bang for the Buck