Puheen syväväärennökset haastavat tutkijoita edelleen

Puheen syväväärennösten laatiminen on tullut koko ajan helpommaksi. Vähän aikaa sitten suomen kieli hidasti puheväärennösten tekoa, mutta ei enää.

26.2.2026

Teknologia ja innovaatiot

Teksti Marianne Mustonen
Kuvat Niko Jouhkimainen

– Puheen syväväärennöksiä voi nykyään tehdä kuka vain. Menneinä vuosikymmeninä vaadittiin enemmän teknistä omistautumista aiheeseen, mutta nykyisin on lukuisia "äänikloonauspalveluita" periaatteessa kenen tahansa saatavilla, kertoo professori Tomi Kinnunen Itä-Suomen yliopiston tietojenkäsittelytieteen laitokselta.

Puhesynteesiä voi periaatteessa käyttää huijaamaan biometrista tunnistusta, osana huijauspuheluita tai valeuutisia sosiaalisessa mediassa. Sen vuoksi on tärkeää pyrkiä ymmärtämään milloin automaattisia järjestelmiä ja ihmisiä voidaan huijata, sekä kehittää vastatoimia.

– Tällaisia vastatoimia ovat esimerkiksi syväväärennösten tunnistaminen (speech deepfake detection), sekä syväväärennösten lähteen selvittäminen (deepfake source tracing) eli millä äänikloonaus- tai synteesiohjelmistolla syväväärennös on tuotettu. Biometrisen tunnistuksen tapauksessa tavoitteena on parantaa järjestelmien vikasietoisuutta erilaisia hyökkäyksiä vastaan, Kinnunen toteaa.

– Neuroverkkoja ja tekoälyä hyödynnetään laajasti alan tutkimuksessa. Itselleni on kuitenkin ollut tärkeää siirtyä jo tulkittavampiin metodeihin, joissa tunnistusmetodi pystyy "perustelemaan" päätöksensä.

Syväväärennösten automaattista tunnistusta kehitetään

Puhe tutkimuskenttänä muuttuu nopeasti, ja tutkittavaa riittää. Tutkimuksessa korostuu poikkitieteellinen fokus – tutkimuksessa hyödynnetään muun muassa koneoppimista, data-aineiston keruuta, puhetieteitä sekä selittävää tekoälyä.

Kinnunen kuvailee syväväärennösten tutkimisen olevan ikään kuin kissa- ja hiiri -leikkiä. Tunnistusmenetelmät ja vastatoimet ovat kehittyneet huiman paljon tarkemmiksi viime vuosina, mutta yleistäminen on kuitenkin edelleen merkittävä haaste.

– Koneoppiminen perustuu mallien sovittamiseen isosta koulutusaineistosta. Mallit voivat tällöin esimerkiksi ylisovittua (overfit) helposti koulutusdataan. Tällöin aiemmin tuntemattomalla synteesitekniikalla tuotettujen puheväärennösten tunnistaminen on haastavaa, hän kertoo.

– Lisähaastetta tuo myös muun muassa se, että reaalimaailman syväväärennökset ovat usein pakattua tai kompressoitua puhetta, mikä peittää alleen puhesynteesin tuottamia artefakteja. Tämä vaikeuttaa tunnistusta.

Puheteknologiatutkimuksessa hyödynnetään signaalinkäsittelyä ja koneoppimista, käytännössä syviä neuroverkkomalleja, joita opetetaan isoista aineistoista.

Kuvassa: Tomi Kinnunen.

– Kehitämme parhaillaan muun muassa puheen syväväärennösten automaattista tunnistusta, siis onko puhe oikeaa vai synteettistä. Selvitämme myös synteettisen puheen lähdettä, eli millä puhesynteesitekniikalla syväväärennös luotiin.

Parhaillaan käynnissä olevassa Suomen Akatemian rahoittamassa SPEECHFAKES-projektissa on kehitetty muun muassa menetelmiä tunnistamaan puheesta syväväärennöksen luonnissa käytetyn synteesimenetelmän osakomponentteja.

Samassa projektissa on kehitetty myös esimerkiksi kokonaan uusia mittareita tarkkuuden arviointiin. Haasteena on arvioida ja vertailla erilaisia tunnistusratkaisuja objektiivisesti, jotta tiedetään millaiset mallit yleistyvät parhaiten, ja millaisissa tilanteissa järjestelmät tekevät virheitä.

– Kun käytössä on biometrisen tunnistimen ja syväväärennösten tunnistimen yhdistelmä, niinkin itsestään selvältä vaikuttava asia kuin tarkkuuden arviointi ei olekaan ihan itsestäänselvyys, Kinnunen sanoo.

Kyseinen tutkimus julkaistiin IEEE Transactions on Pattern Analysis and Machine Intelligence -sarjassa, joka on koneoppimisen kovatasoisimpia julkaisusarjoja.

– Tavoitteenamme on parantaa metodien tarkkuutta ja tulkittavuutta edelleen. Uudenlaisia AI-pohjaisia äänikloonauspalveluita ja työkaluja tulee varmasti olemaan entistä enemmän tulevaisuudessa.

Lue lisää

T. H. Kinnunen, et al, "t-EER: Parameter-Free Tandem Evaluation of Countermeasures and Biometric Comparators," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 5, pp. 2622-2637, May 2024, doi: 10.1109/TPAMI.2023.3313648. ArXiv link: https://arxiv.org/abs/2309.12237

J. Mishra et al, "Towards explainable spoofed speech attribution and detection: A probabilistic approach for characterizing speech synthesizer components," Computer Speech & Language, Volume 95, 2026. Available at https://www.sciencedirect.com/science/article/pii/S0885230825000658

Juttu on osa UEF Teema -verkkolehteä. Numerossa 1/2026 teema on Viestinnän vallassa.

Tomi Kinnunen

Professori

Tietojenkäsittelytieteen laitos, Luonnontieteiden, metsätieteiden ja tekniikan tiedekunta

tomi.kinnunen@uef.fi

+358504422647

Uutiset

Vakavan työväkivallan riski kasautuu tiettyihin tilanteisiin, aikoihin ja paikkoihin oikeuspsykiatrisessa sairaalahoidossa

Nopeampi pääsy tutkimuksiin voisi parantaa lymfoomapotilaiden ennustetta ja vähentää kustannuksia

Yliopistojen C-valintakokeen pisteytyksessä virheitä

Tapahtumat

Hasnain Ali Shah, MSc: Doctoral defence in Computer Science, Joensuu

Strengthening Research Capacity through Seminars – Part 3

Väitös, KM Anna Kuusi, kasvatustiede, Joensuu

Tarkenna hakuasi

Kuvassa: Laskennallisen puheen tutkimusryhmän jäseniä.

Puheen syväväärennökset haastavat tutkijoita edelleen

Syväväärennösten automaattista tunnistusta kehitetään

Lue lisää

Tomi Kinnunen

Professori

Uutiset

Vakavan työväkivallan riski kasautuu tiettyihin tilanteisiin, aikoihin ja paikkoihin oikeuspsykiatrisessa sairaalahoidossa

Nopeampi pääsy tutkimuksiin voisi parantaa lymfoomapotilaiden ennustetta ja vähentää kustannuksia

Yliopistojen C-valintakokeen pisteytyksessä virheitä

Tapahtumat

Hasnain Ali Shah, MSc: Doctoral defence in Computer Science, Joensuu

Strengthening Research Capacity through Seminars – Part 3

Väitös, KM Anna Kuusi, kasvatustiede, Joensuu

Tarkenna hakuasi

Kuvassa: Laskennallisen puheen tutkimusryhmän jäseniä.

Puheen syväväärennökset haastavat tutkijoita edelleen

Syväväärennösten automaattista tunnistusta kehitetään

Lue lisää

Tomi Kinnunen

Professori

Aiheeseen liittyvää

Tomi Kinnunen puheteknologian professoriksi

Syväoppimismenetelmillä kohti nopeampaa, tarkempaa ja turvallisempaa puhujantunnistusta

Tutkimuslaitokset, suuret IT-alan yritykset ja tutkijat yhdistävät voimansa seuraavan sukupolven puhehuijausten tunnistamiseksi