Puheteknologian avulla kohti turvallisempaa tulevaisuutta
—Oma tutkimusfokus on ollut viimeisen vuosikymmenen ajan pitkälti erilaisten "puhehyökkäysten" tutkimuksessa, puheteknologian professori Tomi Kinnunen sanoo.
— Alun perin olin tietysti kiinnostunut tietokoneista. 80-luvulla tuli sekä pelailtua, että opeteltua BASIC-kieltä silloin suositulla Commodore-64 -tietokoneella. Myöhemmin harrastuksiin tuli mukaan musiikki, jonka takia kaikki ääniin liittyvä kiinnostaa, professori Tomi Kinnunen kertoo.
—Tietojenkäsittelytiedettä oli luontevaa lähteä opiskelemaan ohjelmointiharrastusten takia silloiseen Joensuun yliopistoon. Maisteriopintojen viimeisenä vuonna tuli sitten yhdistettyä näitä eri mielenkiintojen kohteita. Gradun aiheeksi valikoitui automaattinen puhujantunnistus. Jatkoin samasta aiheesta jatko-opintoihin, filosofian lisensiaatiksi vuonna 2004 ja tohtoriksi vuonna 2005 – kyseinen tutkimusaihe on edelleen aktiivinen. Väitöksen jälkeen olin kaksi vuotta Institute for Infocomm Researchissa, Singaporessa, sen jälkeen rahoitusta olen saanut pääosin Suomen Akatemialta, myös yhden H2020-projektin (OCTAVE).
Puhujantunnistusta hyödynnetään muun muassa älykaiuttimissa ja -puhelimissa (henkilökohtaiset profiilit, voice login), puhelinvaihteissa (onko soittaja kuka hän väittää olevansa), rikostutkinnassa (onko puhelussa epäilty henkilö) ja kulunvalvonnassa.
—Oma tutkimusfokus on ollut viimeisen vuosikymmenen ajan pitkälti erilaisten "puhehyökkäysten" tutkimuksessa. Olemme tutkineet muun muassa niin kutsuttujen toistohyökkäysten (replay attack), puhesynteesin (text-to-speech) ja puhekonversion (voice conversion) vaikutusta puhujantunnistukseen. Kahdella viimeksi mainitulla pystytään tarvittaessa laittamaan "sanoja toisen henkilön suuhun", ja muun muassa synteettistä puhetta alkaa olla vaikeaa tunnistaa sellaiseksi ainakaan korvakuulolla. Olemme tutkineet myös esimerkiksi imitaation vaikutusta, sekä tahallisen äänen muuntamisen vaikutuksia.
Tulevaisuudessa voi Kinnusen mukaan tulla hyvinkin vastaan tilanne, että saa vaikkapa puhelun omalta äidiltään, esimieheltään tai kollegaltaan, mutta joka ei todellisuudessa olekaan kyseinen henkilö.
—Myös sosiaaliseen mediaan tullaan varmasti lataamaan jatkossa enemmän ja enemmän manipuloitua kuva-, teksti-, ääni-, ja videomateriaalia, joista ensimakua ovat viime vuosina paljon esillä olleet erilaiset deepfake-videot. Tämän muuttuvan todellisuuden kanssa vain on totuttava elämään tulevaisuudessa.
—Menetelmätutkimuksen näkökulmasta kiinnostavaa on selvittää esimerkiksi millaisia hyökkäyksiä ja manipulointeja on mahdollista tunnistaa automaattisesti, ja miten haitallisia erilaiset hyökkäykset ovat puhujantunnistuksen kannalta, Kinnunen sanoo.
—Tutkimuksessani on kehitetty muun muassa uusi koneoppimispohjaisia menetelmiä synteettisen ja muokatun puheen tunnistamiseksi (ts. puhuuko kone vai ihminen). Olen ollut myös perustamassa ja organisoimassa ASVspoof-kilpailua (www.asvspoof.org), joka on kansainvälisesti noteerattu tutkimushaaste. Sen kautta pyritään kartoittamaan paitsi puhujantunnistusteknologian haavoittuvuuksia, myös etsimään yhdessä ratkaisuja. Kilpailu on avoin kaikille ja tutkimusdata vapaasti saatavilla.
—ASVspoof-kilpailusta on tullut tunnettu alan tutkijoiden ja yritysten keskuudessa. Tunnistimien haavoittuvuuksia sekä ratkaisuja työstää tällä hetkellä huomattavan iso joukko tutkijoita maailmanlaajuisesti. Tutkimuskenttä elää ja uudistuu kuitenkin koko ajan, enkä siksi uskalla mitään kovin vahvoja tulevaisuuden visioita käydä maalaamaan. Puheteknologiaa tullaan varmasti näkemään entistä enemmän kuluttajaelektroniikan puolella. Sen taustalla olevaa menetelmätutkimusta täytyy kuitenkin pystyä edistämään perustutkimuksen kautta.
—Olemme jo nyt Suomessa mielestäni varsin valveutuneita tietoteknisten taitojen osata. Itse uskon, että koneoppimisen ja datan rooli tulee kasvamaan kaikilla aloilla tulevaisuudessa. Tietojenkäsittelytieteen opiskelu kannattaa aina.
Lisätietoja: Professori Tomi Kinnunen, tkinnu (a) cs.uef.fi
***
Tomi Kinnunen tietojenkäsittelytieteen, erityisesti puheteknologian professoriksi 1.1.2021 alkaen toistaiseksi (kutsumenettely)
Filosofian maisteri (tietojenkäsittelytiede), Joensuun yliopisto, 1999
Filosofian lisensiaatti (tietojenkäsittelytiede), Joensuun yliopisto, 2004
Filosofian tohtori (tietojenkäsittelytiede), Joensuun yliopisto, 2005
Dosentti (puhujan- ja kielentunnistus), Aalto-yliopisto, 2014
Tärkeimmät tehtävät:
Puheteknologian professori, Itä-Suomen yliopisto, 2021-
Apulaisprofessori (Tenure Track), Itä-Suomen yliopisto, 2017-2020
liopistotutkija (Tenure Track), Itä-Suomen yliopisto, 2013-2016
Vieraileva tutkija, National Institute of Informatics (NII), Japani, 2015-2016
Suomen Akatemian tutkijatohtori, Itä-Suomen yliopisto, 2010-2012
Vaihtelevia tutkimus- ja opetustehtäviä, Joensuun yliopisto, 2007-2009
Tutkija, Institute for Infocomm Research (I2R), Singapore, 2005-2007