Filosofian maisteri Ville Vestman paneutui tietojenkäsittelytieteen alan väitöskirjassaan laaja-alaisesti automaattisen puhujantunnistuksen uusimpiin menetelmiin ja haasteisiin. Puhujantunnistus tarkoittaa puhujan tunnistamista, todentamista tai erottamista toisesta puhujasta erilaisilla keinoilla. Väitöskirjassaan Vestman tutki useita koneoppimismenetelmiä, joilla pyritään nopeuttamaan ja tarkentamaan automattista puhujantunnistusta. Lisäksi väitöskirja tarjoaa uutta tietoa puhujantunnistusteknologian alttiudesta väärinkäytölle.
Puhujantunnistus on usein haastavampaa kuin sormenjälki- tai kasvojentunnistus. Puhujantunnistusta vaikeuttavat muun muassa vaihtelevuus äänitystekniikassa ja akustisissa olosuhteissa, kuten jälkikaiun määrässä. Lisäksi puhujan puhetyyli voi vaihdella suuresti, kuten käy esimerkiksi kuiskatessa. Väitöskirjassa kehitettyyn uuteen aikasarjamallin pohjautuvat akustiset piirteet paransivat puhujantunnistusta erityisesti voimakkaasti jälkikaikuvasta puheesta.
Haastetta puhujantunnistukseen tuovat myös teknologian väärinkäyttöön liittyvät uhkakuvat. Huijari voi yrittää imitoida toista ihmistä tai vaihtoehtoisesti toistaa toisen ihmisen äänitettyä puhetta puhujantunnistusjärjestelmälle. Lisäksi huijauksille altistavat lukuisat synteesimenetelmät, jotka mahdollistavat periaatteessa kenen tahansa puheäänen kloonauksen tai muokkauksen koneellisesti.
Osana väitöskirjatyötään Vestman tutki puhujantunnistusjärjestelmien alttiutta yllä kuvatun kaltaisille huijauksille. Vestman oli myös mukana järjestämässä laajaa kansainvälistä huijauksentunnistusjärjestelmien tutkimuskampanjaa nimeltään ASVspoof 2019. Kampanja sysäsi huijauksentunnistimien kehitystä eteenpäin ja mahdollisti eri tahojen kehittämien ratkaisujen objektiivisen vertailun.
Väitöstutkimuksessa hyödynnettiin näytönohjainlaskentaa puhujantunnistusmenetelmien nopeuttamiseksi. Nopeutusta puhujantunnistukseen haettiin myös optimoimalla ja yksinkertaistamalla olemassa olevia menetelmiä.
Puheteknologian alalla on käynnissä laaja murros uusien neuroverkkoihin perustuvien syväoppimismenetelmien haastaessa aikaisempia tilastollisiin malleihin perustuvia menetelmiä. Tutkimuksen aikana kertynyttä tietotaitoa useista eri menetelmistä hyödynnetään väitöskirjan viimeisessä julkaisussa yhdistelemällä eri aikakausien menetelmiä keskenään. Tuloksena syntynyt “neuraalinen” ihmisen yksilöivä äänitunniste paransi tunnistustarkkuutta verrattuna generatiivisiin tilastollisiin malleihin perustuviin verrokkimenetelmiin.
Filosofian maisteri Ville Vestmanin väitöskirja Methods for Fast, Robust, and Secure Speaker Recognition tarkastetaan Itä-Suomen yliopiston luonnontieteiden ja metsätieteiden tiedekunnassa. Väitöstilaisuus järjestetään vallitsevan tilanteen vuoksi kokonaan verkossa 10. marraskuuta klo 10. Vastaväittäjinä toimivat apulaisprofessorit Tom Bäckström Aalto-yliopistosta ja Brian Kan-Wing Mak Hong Kongin teknis-luonnontieteellisestä yliopistosta. Kustoksena toimii apulaisprofessori Tomi Kinnunen Itä-Suomen yliopistosta. Tilaisuus on englanninkielinen.