Knowit pääsi rakentamaan tekoälyratkaisun asiakkaansa asiakastyytyväisyyskyselyn analysointiin. Kyselyn kysymykset oli muodostettu sekä Likert-asteikolla että avoimilla tekstikenttäkommenteilla. Erityisesti haluttiin analysoida tekstikommentteja ja etsiä niistä syitä sille, miksi tietyn palvelun asiakasryhmä on toista tyytymättömämpi.

Analysoitavia vastauksia oli kertynyt jo yli 10 000, joten manuaalisesti sen läpikäyminen ei ollut enää mahdollista, vaikka sitäkin oli yritetty ja joitain löydöksiäkin saatu. Tekstidatan manuaalinen analysointi on kuitenkin erittäin aikaa vievää ja myös altista inhimillisille virheille. Lisäksi vastaava kysely toistetaan vuosittain. Siksi ratkaisu haluttiin rakentaa kerralla sellaiseksi, että se palvelee myös tulevien kyselyiden kohdalla ja säästää jatkossa merkittävästi henkilötyötunteja

"Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita."

NLP-teknologian avulla pyrittiin etsimään toistuvia tekijöitä

Analyysissa haluttiin tutkia, löytyykö avoimista tekstikentistä selityksiä heikommille numeroarvosanoille. Tekoälyn avulla pyrittiin vastaamaan esimerkiksi seuraavanlaisiin kysymyksiin:

  • Kokoa viimeisestä kysymyksestä (Muut terveisesi) kymmenen useimmin mainittua tai käyttäjien mielestä merkittävintä tekijää.
  • Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat hyvien (>3) arvosanojen muodostumiseen?
  • Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat negatiivisten (<3) arvosanojen muodostumiseen?

 

Ensimmäisen kysymyksen tutkimiseksi muodostettiin baseline perinteisellä ngram-menetelmällä, jonka avulla haluttiin tietää, onko tekstikentässä ensinnäkään merkittäviä tekijöitä. Tekstissä todettiin esiintyvän mm. yleisiä sanapareja, joten teksti oli mahdollista jakaa aihealueisiin. Jakoon valittiin neuroverkkoihin perustuva FinBERT, joka on mallinnettu käyttäen suomenkielisiä tekstejä. Sen avulla kukin teksti voidaan projisoida noin 700-ulotteiseen avaruuteen, jolloin samankaltaiset aiheet voitiin ryhmitellä käyttäen perinteisiä luokittelumenetelmiä.

Koska tekstissä esiintyi suomenkielen lisäksi myös ruotsin- että englanninkieleisiä kommentteja, kokeiltiin myös vastaavaa monikielistä LaBSE-menetelmää. Asiakkaan kanssa pohdittiin, montako aihealuetta haluttiin tarkasteltavaksi.

- Suomen kieli on agglutinatiivinen kieli, eli sanarunkoon voidaan lisätä runsaasti erimuotoisia osia. Tämän vuoksi ideaalisten mallien opettamiseen tarvittaisiin hypoteettisesti kaikkia sanamuotoja kaikissa eri aiheyhteyksissä esiintyviä tekstejä. Koska opettamiseen käytetty aineisto on aina rajallinen, mallien suorituskyky on myöskin rajallinen, kertoo projektissa data scientistina toiminut Knowitin Petri Puustinen.

LaBSE-menetelmällä saatiin kuitenkin riittävän hyviä aihealueita eristetyksi, koska sen avulla myös englannin- ja ruotsinkieliset aiheet saatiin samoihin alueisiin suomalaisten tekstien kanssa. Jatkokysymysten suhteen haasteena oli liittää muodostetut aihealueet negatiivisiin ja positiivisiin arvosanoihin.

Vastausten analysointiin päätettiin käyttää NLP- eli Natural Language Processing teknologiaa. Koneoppimisen ja luonnollisen kielen prosessoinnin avulla on mahdollista analysoida suuria määriä tietoa nopeasti ja kustannustehokkaasti.

Haasteena teknologioiden Suomen kielen taito

NLP-teknologiat ovat kehittyneet merkittävästi viime vuosien aikana ja niiden avulla voidaan tehostaa prosesseja huomattavasti. Vaikka isommille kielille on suoraan tarjolla valmiita ratkaisuja, NLP-ratkaisujen Suomen kielen taito on vielä tällä hetkellä hyvin rajallista. Tässä toteutuksessa oman haasteensa aiheutti se, että vastauksia oli annettu kolmella kielellä ja osa käytetystä sanastosta oli asiakkaan sisäistä.

Nykyisillä koneoppimis-/tekoälymenetelmillä ei ole ylipäätään mahdollista täydellisesti “ymmärtää” tekstiä. Yksi haaste oli tälle datalle sopivan klusterointitavan löytäminen.

Lopputuloksena selkeä kansankielinen esitys

Analyysin lopputuloksena vastausten ja arvosanojen todettiin jakautuvan tiettyjen ehtojen mukaan. Lopputuotteena oli selkeä kansankielinen esitys, jossa löydöksiä esiteltiin. Data-analyysi todettiin hyödylliseksi ja sitä jatketaan tulevien kyselyiden myötä.

- Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita. Kun pohjatyö on kerran tehty, tuloksia voidaan jatkossa analysoida nopeammin ja sen myötä puuttua juuri niihin asioihin, joilla on palvelun käyttäjille merkitystä, kertoo projektipäällikkönä toiminut Knowitin Erkki Ruskio.

Analyysin avulla päästään nopeammin kiinni vastausten syihin ja ongelmiin voidaan puuttua. Reagointi nostaa käyttäjien motivaatiota vastata kyselyihin jatkossakin.

Ota yhteyttä
Markku Haukijärvi
Senior Sales Executive, Knowit Solutions Oy
Ota yhteyttä
Ota yhteyttä

Alkuun