Puheen syväväärennösten laatiminen on tullut koko ajan helpommaksi. Vähän aikaa sitten suomen kieli hidasti puheväärennösten tekoa, mutta ei enää.
– Puheen syväväärennöksiä voi nykyään tehdä kuka vain. Menneinä vuosikymmeninä vaadittiin enemmän teknistä omistautumista aiheeseen, mutta nykyisin on lukuisia "äänikloonauspalveluita" periaatteessa kenen tahansa saatavilla, kertoo professori Tomi Kinnunen Itä-Suomen yliopiston tietojenkäsittelytieteen laitokselta.
Puhesynteesiä voi periaatteessa käyttää huijaamaan biometrista tunnistusta, osana huijauspuheluita tai valeuutisia sosiaalisessa mediassa. Sen vuoksi on tärkeää pyrkiä ymmärtämään milloin automaattisia järjestelmiä ja ihmisiä voidaan huijata, sekä kehittää vastatoimia.
– Tällaisia vastatoimia ovat esimerkiksi syväväärennösten tunnistaminen (speech deepfake detection), sekä syväväärennösten lähteen selvittäminen (deepfake source tracing) eli millä äänikloonaus- tai synteesiohjelmistolla syväväärennös on tuotettu. Biometrisen tunnistuksen tapauksessa tavoitteena on parantaa järjestelmien vikasietoisuutta erilaisia hyökkäyksiä vastaan, Kinnunen toteaa.
– Neuroverkkoja ja tekoälyä hyödynnetään laajasti alan tutkimuksessa. Itselleni on kuitenkin ollut tärkeää siirtyä jo tulkittavampiin metodeihin, joissa tunnistusmetodi pystyy "perustelemaan" päätöksensä.
Syväväärennösten automaattista tunnistusta kehitetään
Puhe tutkimuskenttänä muuttuu nopeasti, ja tutkittavaa riittää. Tutkimuksessa korostuu poikkitieteellinen fokus – tutkimuksessa hyödynnetään muun muassa koneoppimista, data-aineiston keruuta, puhetieteitä sekä selittävää tekoälyä.
Kinnunen kuvailee syväväärennösten tutkimisen olevan ikään kuin kissa- ja hiiri -leikkiä. Tunnistusmenetelmät ja vastatoimet ovat kehittyneet huiman paljon tarkemmiksi viime vuosina, mutta yleistäminen on kuitenkin edelleen merkittävä haaste.
– Koneoppiminen perustuu mallien sovittamiseen isosta koulutusaineistosta. Mallit voivat tällöin esimerkiksi ylisovittua (overfit) helposti koulutusdataan. Tällöin aiemmin tuntemattomalla synteesitekniikalla tuotettujen puheväärennösten tunnistaminen on haastavaa, hän kertoo.
– Lisähaastetta tuo myös muun muassa se, että reaalimaailman syväväärennökset ovat usein pakattua tai kompressoitua puhetta, mikä peittää alleen puhesynteesin tuottamia artefakteja. Tämä vaikeuttaa tunnistusta.
Puheteknologiatutkimuksessa hyödynnetään signaalinkäsittelyä ja koneoppimista, käytännössä syviä neuroverkkomalleja, joita opetetaan isoista aineistoista.
– Kehitämme parhaillaan muun muassa puheen syväväärennösten automaattista tunnistusta, siis onko puhe oikeaa vai synteettistä. Selvitämme myös synteettisen puheen lähdettä, eli millä puhesynteesitekniikalla syväväärennös luotiin.
Parhaillaan käynnissä olevassa Suomen Akatemian rahoittamassa SPEECHFAKES-projektissa on kehitetty muun muassa menetelmiä tunnistamaan puheesta syväväärennöksen luonnissa käytetyn synteesimenetelmän osakomponentteja.
Samassa projektissa on kehitetty myös esimerkiksi kokonaan uusia mittareita tarkkuuden arviointiin. Haasteena on arvioida ja vertailla erilaisia tunnistusratkaisuja objektiivisesti, jotta tiedetään millaiset mallit yleistyvät parhaiten, ja millaisissa tilanteissa järjestelmät tekevät virheitä.
– Kun käytössä on biometrisen tunnistimen ja syväväärennösten tunnistimen yhdistelmä, niinkin itsestään selvältä vaikuttava asia kuin tarkkuuden arviointi ei olekaan ihan itsestäänselvyys, Kinnunen sanoo.
Kyseinen tutkimus julkaistiin IEEE Transactions on Pattern Analysis and Machine Intelligence -sarjassa, joka on koneoppimisen kovatasoisimpia julkaisusarjoja.
– Tavoitteenamme on parantaa metodien tarkkuutta ja tulkittavuutta edelleen. Uudenlaisia AI-pohjaisia äänikloonauspalveluita ja työkaluja tulee varmasti olemaan entistä enemmän tulevaisuudessa.
Lue lisää
T. H. Kinnunen, et al, "t-EER: Parameter-Free Tandem Evaluation of Countermeasures and Biometric Comparators," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 5, pp. 2622-2637, May 2024, doi: 10.1109/TPAMI.2023.3313648. ArXiv link: https://arxiv.org/abs/2309.12237
J. Mishra et al, "Towards explainable spoofed speech attribution and detection: A probabilistic approach for characterizing speech synthesizer components," Computer Speech & Language, Volume 95, 2026. Available at https://www.sciencedirect.com/science/article/pii/S0885230825000658
Juttu on osa UEF Teema -verkkolehteä. Numerossa 1/2026 teema on Viestinnän vallassa.