Bygga och träna en Klassificerare

Förberedelser: Bygg en stabil grund att stå på

Innan du börjar annotera är det viktigt att du har en tydlig idé om vad du vill uppnå. Några exempel på frågor du kanske vill ha svar på är:

Vad var kundens behov?
Försöker kunden få teknisk support, har de svårt att logga in, vill de byta till en snabbare tjänst, eller har de en fråga om pris?
Löste vi ärendet?
Vill du kunna se i efterhand hur ofta problem faktiskt löstes under samtalet, mejlet eller chatten?
Vad gjorde att vi sålde något (eller inte)?
Om du jobbar i en säljande organisation, vill du veta vad som ledde till ett lyckat sälj. Var det en viss replik, en särskild produkt som erbjöds, eller var det kundens eget initiativ? Och om vi inte sålde något, vad var orsaken?
Vilka processförbättringar behöver vi göra?
Kanske ser du att många kunder har problem med en viss del av hemsidan, en återkommande fråga om leveranstid, eller ofta upplever att fakturan är otydlig. Genom att klassificera ärendena kan du se mönster och därigenom veta var du bör sätta in förbättringar.

För att svara på sådana frågor måste du definiera kategorier (labels) som representerar dessa aspekter. Det är bra att börja brett och sedan förfina.

Definiera kategorier och hierarkier:
Utgå från dina huvudsakliga intressen. Om du vill veta om ett ärende är löst eller inte, skapar du en kategori för detta. Om du vill förstå kundens problem, skapar du kategorier för olika typer av problem. Behöver du dela upp kategorierna i mindre underkategorier (t.ex. från "Klagomål" till "Leveransförsening", "Defekt produkt", "Felaktig faktura"), gör det. Men börja hellre enkelt och bli mer detaljerad senare när du förstår mer om datan.
Dokumentera dina kategorier:
Skriv ner vad varje kategori betyder, och ge exempel på situationer då en text ska klassas i den kategorin. Om ni är flera som ska annotera data är detta särskilt viktigt för att vara konsekventa. Har ni olika tolkningar av vad "Löst ärende" betyder? Definiera det tydligt. Är det löst om kunden uttrycker nöjdhet, eller är det löst bara om agenten bekräftat en lösning? Sådana detaljer måste vara glasklara.
Använd funktionen för att ställa en fråga och få förslag på kategorier:
Labelf erbjuder en funktion där du kan ställa en öppen fråga, till exempel "Hur kan vi kategorisera dessa kundärenden för att bättre förstå kundernas problem?" Systemet kan då ge förslag på kategorier. Detta är särskilt användbart om du känner dig osäker på hur du ska börja eller vilka etiketter som är mest relevanta.
Planera för iteration:
Acceptera att du inte kommer ha perfekta kategorier från början. När du väl börjat annotera och ser hur modellen presterar kan du behöva dela upp vissa kategorier eller slå ihop andra. Se det som en naturlig del av processen: du lär dig om din data samtidigt som modellen lär sig.

Steg 1: Börja annotera (labela) exempel

När du valt några grundkategorier är det dags att börja ge exempeltexter rätt etikett.

Börja med tydliga fall:
Ta de ärenden du är helt säker på. Om du har en kategori "Kunden har problem med inloggning", börja med texter där kunden tydligt säger "Jag kan inte logga in." Detta ger modellen en stabil, enkel grund att lära sig ifrån.
Volym före perfektion i början:
Försök inte lösa alla svåra fall direkt. Annotera många exempel snabbt, fokusera på det självklara. Du kan använda Labelfs funktion för att hoppa över tveksamma fall. Ju fler exempel du har i början, desto snabbare kan modellen börja hjälpa till genom att ge förslag på kategorier.
Active Learning – modellen lär sig medan du jobbar:
Allteftersom du annoterar börjar modellen analysera dina exempel och försöker förstå mönstren. Snart kommer den börja föreslå vilken kategori en ny text ska ha. Det är detta samarbete mellan dig och modellen som gör processen mer effektiv. Du ger modellen exempel, modellen ger dig förslag tillbaka, och du kan rätta till när det blir fel. På så sätt förbättras den hela tiden.

Steg 2: Analysera resultatet och förbättra modellen

När du har ett antal annoterade exempel i systemet kan du börja titta på hur modellen presterar. Här visar Labelf var du ska lägga fokus för att snabbt bli bättre.

Confusion Matrix och Metrics:
En Confusion Matrix är en tabell som visar hur modellen förutsäger jämfört med hur du annoterat. Om modellen blandar ihop "Fråga" och "Klagomål" ofta, ser du det direkt. Då vet du exakt att du bör lägga till fler tydliga exempel för dessa två kategorier, så att modellen lär sig skillnaden.
Rekommendationer för osäkra fall:
Labelf pekar ut vilka ärenden modellen är mest osäker på. Genom att annotera just dessa osäkra fall förbättrar du modellen snabbare än om du bara valde slumpmässiga exempel. Modellen talar alltså om var du ska lägga ditt krut för snabbast förbättring.
Sök- och filtreringsfunktioner:
Har du metadata som kundtyp, produkt, ärendetyp eller liknande? Använd sök- och filterfunktionerna för att hitta fler relevanta exempel. Om du ser att modellen kämpar med att förstå klagomål kring leverans, leta upp fler sådana fall och annotera dem. På så vis lär sig modellen snabbare vad som kännetecknar just den typen av klagomål.

Steg 3: Iterera, justera och förfina

Klassificering är en process, inte en engångsuppgift. Du kommer sannolikt behöva justera dina kategorier, lägga till fler exempel och kanske lägga till fler underkategorier när du förstår dina data bättre.

Dela upp eller slå ihop kategorier:
Om en kategori är för bred (t.ex. "Tekniskt problem") kanske du vill dela den i "Inloggningsproblem", "Internethastighet", "Routerfel" för att få mer detaljerad insikt. Om två kategorier är för lika, slå ihop dem.
Fokusera på modellens svagheter:
Om Confusion Matrix visar att modellen ofta gissar fel på en viss kategori, filtrera fram fler exempel på just denna kategori och annotera dem. Modellen kommer tack vare detta lära sig nyanserna snabbare.
Dokumentera ändringar:
Varje gång du ändrar en kategori eller lägger till en ny, uppdatera din dokumentation. Det gör att du och eventuellt andra i teamet alltid vet vad varje kategori betyder, vilket minimerar risken för förvirring och inkonsekvens.

Tips för en smidig process

Kommunicera inom teamet:
Om flera personer annoterar är det viktigt att alla förstår och följer samma riktlinjer. Diskutera tveksamma fall, uppdatera dokumentationen och håll alla informerade.
Ha tålamod:
Bygga en robust klassificeringsmodell tar tid. Se det som en resa där du hela tiden får bättre insikt i dina kundärenden. Varje iteration gör modellen smartare och dina kategorier mer träffsäkra.
Var konsekvent och tydlig:
Ju tydligare du är med dina kategorier, desto lättare blir det för modellen att förstå dem. Om du ibland klassar ett visst problem som "Tekniskt problem" och ibland som "Fråga" utan logik, förvirrar du modellen.

Sammanfattning

Utgå från relevanta frågor: Tänk efter vilka insikter du vill få. Är det hur ofta vi löser ärendet, vad kunden behöver eller vad som hindrar försäljning?
Definiera kategorier och använd funktionerna i Labelf för att få förslag: Börja med några etiketter, dokumentera dem noga, och använd Labelfs möjlighet att fråga och få förslag på kategorier.
Annotera många, enkla exempel i början: Skaffa en grund som modellen kan bygga ifrån.
Använd Confusion Matrix, rekommendationer och filtrering: Fokusera din insats där modellen är svag. Lägg till fler exempel i just de områdena för snabbast förbättring.
Iterera och förfina: Justera kategorier, lägg till fler exempel, ta omtag när du ser nya mönster i datan.
Dokumentera och var konsekvent: Det gör processen tydlig, även om fler personer är involverade.

Genom att följa dessa steg, och dra nytta av Labelfs inbyggda verktyg, kan du steg för steg bygga en klassificeringsmodell som verkligen hjälper dig att förstå dina kundärenden, ta bättre beslut och förbättra din verksamhet över tid.