Itä-Suomen yliopisto ja Ilmatieteen laitos
Mittausvirheet ja havaintojen lukumäärä voivat vaikuttaa merkittävästi ilmakehämittausten analyysiin. Tuoreessa tutkimuksessa esitetään keinoja, joilla aineistojen epävarmuudet voidaan analyysissa huomioida.
Mitatut aineistot sisältävät aina epävarmuuksia, jotka voivat johtua esimerkiksi aineiston luonteesta, mittalaitteen toiminnasta tai joissain tapauksissa jopa mittaajasta. Jos näitä epävarmuuksia ei huomioida, kun aineistoja analysoidaan, voivat tuloksista tehdyt päätelmät mennä pahastikin pieleen.
Itä-Suomen yliopiston ja Ilmatieteen laitoksen tutkimuksessa havaittiin, että mittausvirheiden ja havaintojen lukumäärän huomiotta jättäminen voi vaikuttaa merkittävästi ilmakehämittausten analyysiin.
”Usein kuitenkin jätetään huomiotta se, että mittausvirheellä tai havaintojen lukumäärällä voisi olla vaikutuksia tulosten tulkintaan”, toteaa Itä-Suomen yliopiston tutkija Santtu Mikkonen.
Aineiston koolla on väliä ja poikkeavat havainnot sekoittavat tuloksia
Tutkimuksessa havaittiin, että aineistoon luoduilla, kohtuullisen suurilla, epävarmuuksilla osa tarkastelluista menetelmistä pystyy löytämään muuttujien väliset yhteydet likimain todellisella tasolla. Havaintoja on oltava tällöin yli kymmenen, mutta osa menetelmistä tarvitsee tähän jopa satoja havaintoja.
”Merkittävän haasteen monien aineistojen analyysiin tuo pieni havaintomäärä. Jos havaintoja on vain muutamia, tulee minkä tahansa tilastollisen menetelmän käyttöä harkita tarkkaan”, toteaa Ilmatieteen laitoksen tutkija Mikko Pitkänen.
Jo aiemmassa tutkimuksessa todettiin, että yksi yleisimmin käytetyistä tilastomenetelmistä, suoran sovitukseen käytettävä ns. pienimmän neliösumman menetelmä (PNS), ei huomioi aineiston epävarmuuksia oikein. Tutkimuksessa sitä käytettiin verrokkina menetelmien vertailussa havainnollistamaan, miten suuri merkitys analyysimenetelmän valinnalla on. Havaittiin, että PNS:n antama sovitus käytettyyn aineistoon oli 50 % todellisesta, tunnetusta arvosta. Se oli hyvin herkkä epävarmuuksien muutoksille ja poikkeaville havainnoille.
Tutkijat suosittelevat, että aineistojen analyysissa huomioitaisiin aina mittausten epävarmuus. Lisäksi he ehdottavat eri tyyppisiin tilanteisiin soveltuvia menetelmiä, joilla epävarmuudet voidaan huomioida. Mittausvirhemallit (engl. error-in-variables models) ja Bayesilaiset menetelmät mahdollistavat monipuolisen virhelähteiden käsittelyn, ja ne suoriutuivat PNS-menetelmää tarkemmin suoran sovittamisesta, kun koeaineistossa oli paljon epävarmuuksia.
Tutkimuksessa hyödynnettiin keinotekoisia aineistoja, jotka oli luotu muistuttamaan todellisia mittausaineistoja, sekä todellisia Euroopan hiukkasfysiikan tutkimuskeskuksessa (CERN) mitattuja ilmakehän hiukkasmuodostukseen liittyviä aineistoja, joiden tiedetään sisältävän suuria epävarmuuksia. Luotujen aineistojen yhteydet ja epävarmuudet tunnettiin tarkasti, ja epävarmuuksien vaikutusta analyysien tuloksiin pystyttiin siten arvioimaan luotettavasti. Todellisista mittausaineistoista epävarmuuksia ei voi koskaan tietää tarkasti.
Lisätietoja:
Itä-Suomen yliopisto
FT, dosentti Santtu Mikkonen, puh. 040 355 2319, santtu.mikkonen(at)uef.fi
Ilmatieteen laitos
tutkija, meteorologi Mikko Pitkänen, puh. 050 344 7116, mikko.pitkanen(at)fmi.fi
Mikkonen, S., Pitkänen, M. R. A., Nieminen, T., Lipponen, A., Isokääntä, S., Arola, A., and Lehtinen, K. E. J. (2019)
Technical note: Effects of uncertainties and number of data points on line fitting – a case study on new particle formation
Atmos. Chem. Phys., 19, 12531–12543, doi:10.5194/acp-19-12531-2019.