Datatieteen professori Pauli Miettinen ja sosiologian yliopistonlehtori Antti-Jussi Kouvo kertovat, millaisia mahdollisuuksia isot tietovarannot avaavat tutkimukseen.
Suurten tietovarantojen eli big datan hyödyntäminen kiinnostaa niin akateemista tutkimusta kuin yhteiskunnallisia ja kaupallisia toimijoita.
Itä-Suomen yliopistossa toimii datalähtöisen tutkimuksen monitieteinen tutkijaverkosto. Verkoston vetäjä, datatieteen professori Pauli Miettinen ja sosiologian yliopistonlehtori Antti-Jussi Kouvo kertovat Akateeminen vartti -podcastin vieraina, millaisia mahdollisuuksia datalähtöisestä tutkimuksesta avautuu, ja miten monitieteisyys toteutuu datalähtöisessä tutkimuksessa? Entä miten julkiset ja kaupalliset toimijat käyttävät isoa dataa?
Kuuntele Akateeminen vartti -podcastin jakso:
Podcastin tekstivastine
Risto Löf: Suurten tietovarantojen eli big datan hyödyntäminen kiinnostaa niin akateemista tutkimusta kuin yhteiskunnallisia ja kaupallisia toimijoita. Millaisia mahdollisuuksia datalähtöisestä tutkimuksesta avautuu? Ja miten monitieteisyys toteutuu datalähtöisessä tutkimuksessa? Muun muassa näistä kysymyksistä keskustellaan tällä kertaa Akateemisessa vartissa. Studiossa on Risto Löf, tervetuloa kuulolle.
Tunnusmusiikki.
Risto Löf: Datalähtöinen tutkimus on järjestäytynyt vastikään monitieteiseksi tutkimusverkostoksi Itä-Suomen yliopistossa. Akateemisen vartin vieraiksi ovat tällä kertaa saapuneet verkoston vetäjä ja datatieteen professori Pauli Miettinen ja sosiologian yliopistonlehtori Antti-Jussi Kouvo. Tervetuloa Pauli ja Antti.
Pauli Miettinen: Kiitos.
Antti-Jussi Kouvo: Kiitos.
Risto Löf: Lähdetääs liikkeelle perinteiseen tapaan, eli asioita määritellään. Kaikki tutkimus pohjautuu jollain tavalla dataan, tietoon. Mutta mitä tarkoittaa erityisesti datalähtöinen tutkimus? Pauli, mitä sanot?
Pauli Miettinen: Joo, no sehän on tämän päivän muotitermi. Et jossain määrin se tarkoittaa tutkimusta, joka perustuu dataan ja tietoon, mikä osin pitää sisällään sen kaiken perinteisen. Mut ehkä se isoin uusi asia on, et tutkimus, jossa se data ei ole alkujaan kerätty juuri vastaamiseksi siihen kysymykseen. Elikkä ei niin, että ensin on tehty hypoteesi ja sitten kerätty sitä varten dataa. Mutta mitä nyt on tullut enemmän, sitä dataa on kerätty jostain muista syistä jonnekin ja sitten sitä lähdetään hyödyntämään. Niin se on ehkä se isoin. Mutta pitää sisällään myös kaiken sen sellaisen perinteisen dataa hyväksikäyttävän tutkimuksen.
Risto Löf: Big data on niitä viime vuosien kuumia sanoja. Mitkä tahot näitä suuria tietovarantoja keräävät ja mihin tarkoitukseen?
Pauli Miettinen: No ihan kaikki noin lyhyesti sanottuna. Et näitähän kerää valtiovalta ihan vaikka oman normaalitoimintansa pyörittämiseen. Näitä kerätään sairaaloissa ja vastaavissa siihen normaalitoiminnan pyörittämistä varten. Niitä voidaan sitten myöhemmin hyödyntää tutkimuksessa. Näitä kerää, niinku hyvin tiedetään, eri yritykset oman liiketoimintansa kannalta. Ja sitten näitä kerätään myös kaikissa tutkimusryhmissä. Nyt kaikissa, mut useissa tutkimuksissa kerätään dataa, joka on alkujaan tarkoitettu esimerkiksi juuri siihen kyseiseen tutkimukseen, mutta josta voidaan mahdollisesti myöhemmin hyödyntää myös muissakin tapauksissa.
Risto Löf: Miten se big data määritellään? Nyt jos mietitään sitä, että meillä on pientä dataa ja keskisuurta dataa ja isoa dataa, niin mikä on sitä isoa dataa?
Pauli Miettinen: Semmonen perinteinen määritelmä on ollu nää kolme V:tä, että Volume, Velocity ja Variety. Elikkä sitä tulee paljon, sitä tulee nopeesti ja se on monenlaista. Elikkä ei oo hyvin homogeenistä dataa vaan hyvinkin heterogeenistä dataa. Mutta mä enemmän näkisin, että koska olen tietojenkäsittelytieteilijä, niin mä määrittelen big datan ennemminkin niin päin, että se riippuu siitä, mitä sä haluat sille tehdä. Jos sä pystyt tekemään sen, minkä haluat tehdä helposti sille datallesi tarvitsematta murehtia sitä algoritmia tai tietokonetta, millä sen teet, niin sit se ei oo big dataa. Mutta jos sun pitää pysähtyä miettimään, et mitä jos mä onnistun näin isolle datasetille tämmösen asian tekemään, niin sit sulla on big data -ongelma. Ja se saattaa olla, että se on tuhat havaintoa, joka on se big data -ongelma, jos haluat sieltä sellasta laskea, joka vaikeaa on. Se saattaa olla, että se on tuhat miljoonaa havaintoa ennen kun sulla on big data -ongelma.
Risto Löf: Eli puhutaan siis hyvin suurista tietomassoista siinä tapauksessa.
Pauli Miettinen: Se on, mut se riippuu ihan siitä, mitä sieltä halutaan tehdä. Se voi olla hyvinkin pieni, joka on suuri.
Risto Löf: No datalähtöisessä tutkimuksessa korostuu monitieteisyys täällä Itä-Suomen yliopistossa. Antti, sä teet tutkimusta yhteiskuntatieteiden puolella. Miks datalähtöinen tutkimus kiinnostaa sinua?
Antti-Jussi Kouvo: No oikeastaan tää liittyy tähän yhteiskuntatieteiden murrokseen tietyllä tavalla menetelmissä nimenomaan. Meil on, jos ajatellaan vaikka määrälliset yhteiskuntatieteet, mis on jotain laskeskeltu ja aseteltu hypoteesei, niin vaikka sosiaalitieteiden puolella 50-luvulla muotiin tullut survey-tutkimus postikyselyinä alkaa olee jo vähän vaikea toteuttaa nykyään. Kun jos kerätään vaikka kyselyaineistoa, niin sit joku teleliikennehommissa oleva ihminen sanoo, et okei, et hän kerää just miljoona havaintoo vaikka päivässä jostain ihmisten käyttäytymisestä ja tällasista. Eli tän tyyppiseen murrokseen se liittyy. Ja totta kai aika paljon ehkä just big dataan liittyen aika jänniä sovelluksia. Et avoimesti saatavilla olevaa dataa linkitetään vaikka olemassa oleviin, jotain tiettyä tarkoitusta varten kerättyihin tutkimusaineistoihin. Tai sitten toisaalta meillä ehkä hyvinkin aletaan yhä enemmän käyttää myös yhteiskuntatieteissä erilaisii datan louhintamenetelmiä tai tällaisia asioita. Jos tiivistäis, niin tää on tulossa nää uudet tavat kerätä aineistoa ja analysoida niitä. Ne vanhat on ehkä väistymässä näiden uusien tieltä yhä enemmän. Ja oikeastaan semmonen, että totta kai kaikkien tietoverkkojen avautuminen, tää on valtava potentiaali, mikä täl yhteiskuntatieteil on.
Risto Löf: Mitäs tieteenaloja yliopistoista on mukana? Siis tässähan nyt on luonnontieteet ja yhteiskuntatieteet istuu pöydän äärellä. Mutta miten muut?
Pauli Miettinen: Meillä on tässä ryhmässä edustus niinku ihan tässä organisoivassa porukassa edustus kaikista tiedekunnista ja pyrkimys ois, että kaikki halukkaat. Et me ei ketään suljeta pois, päinvastoin.
Antti-Jussi Kouvo: Esimerkiks siis lääketieteestä ihan hirveesti just noit esimerkkejä, mitä Pauli sano, et kerätään aika paljon aineistoa, mitä ei oo tarkoitettu tutkimukseen. Tai sitten humanistien tämmönen Digital Humanities, valtavien tekstimassojen laskennallinen analyysi. Se on hyvin pitkälle vietyy datavetost tutkimusta. Et tää on sillai aika kiitollinen porukka, et täs ei hirveesti nää raja-aidat tunnu.
Pauli Miettinen: Kyllä.
Risto Löf: Onks siellä jotain tiettyjä tutkimusaiheita, joihin se datalähtöinen tutkimusmenetelmä soveltuu erityisesti? Tai jotain, minkä se sulkee pois? Löydättekö jotakin esimerkkejä omasta työstä tai kollegoiden työstä, missä se toimii erinomaisen hyvin? Tässä nyt tuli mainittuakin kyllä jo esimerkki.
Pauli Miettinen: Se toimii kaikkialla, missä sulla on sitä dataa. Ja sit jos ei oo dataa, niin sit se suljetaan pois. Että tämmönen tautologinen määritelmä tästä. Koska siis esimerkiks mun tutkimusryhmässä yliopistotutkija Esther Galbrun on tehny yhteistyötä Helsingin yliopiston kanssa tutkimalla paleontologisia säätiloja, siis kaukaisen menneisyyden säätiloja. Niin, että on yhdistetty tietoja fossiileista ja tiedetyistä säätiloista ja sillä tavalla pystytty päättelemään, et mimmosta säätilaa on ollu johonkin muuhun aikaan. Ja tää on yksi ääripää. Toinen ääripää voi olla vaikka lääketieteessä tehtyä yhteistyötutkimusta. Tai vaikka ihmisten sosiaalisten verkostojen tutkimusta, mitä minäkin olen tehnyt, jossa on nykyään paljon dataa. Joka on ehkä malliesimerkki sellasesta tutkimuksesta, joka silloin kun jos lukee vaikka 90-luvulla tehtyjä tutkimuksia, niin ne sosiaaliset verkostot on ollu sellasia 30 ihmisen tai 60 ihmisen. Ne on voinu printata siihen julkaisuartikkeliin koko verkoston. Ja se muuttu vähäsen tossa vuosituhannen vaihteessa se, et mimmosta dataa on käytettävissä. Minkä kokoista dataa on käytettävissä. Et ei pelkästään Facebook, vaan ihan kaikki internet, jossa on erinäköistä ihmisten välistä yhteistyötä mahdollista. Data tallennetaan ja sitä on joissain tilanteissa mahdollista saada helpommin ja jossain vaikeammin sen tutkimiseen, et miten ihmiset tekevät yhteistyötä. Minkä näköisiä ryhmiä muodostuu tälläsissä tilanteissa. Puhutaan miljoonista ihmisistä eikä 64:stä.
Antti-Jussi Kouvo: Joo kyl mäki lähtisin ehkä just tän aineiston kautta tosiaan määrittelemään. Kun ajattelee, et kuitenkin aika moni, et vaik uusil isoil big data, tämmösil tehdään, ni aika vähän tää on. Ehkä siinä mielessä toi datalähtönen on vähän hankala sanoa, että ois jotain datalähtöstä, ois teoriatonta tutkimusta tai tälläi, et ei oo hypoteeseja. Et aika paljon tässä on perinteiseen tapaan aseteltu hypoteesi. Mikä on siinä mielessä ihan jännää, et ku vaik Pauli nosti ton sosiaalisen median esimerkiks sosiaalisten verkostojen lainalaisuuksien tutkijassa. Niin se on aika huvittavaa nähdä, et miten nää samat lainalaisuudet, mitkä on face to face päteny aikoinaan, niin tuntuu olevan hyvin samannäköisiä kuin tuolla somessa toimiessa tai näin päin pois.
Risto Löf: No suuret tietovarannot ne ei kiinnosta ainoastaan yksin akateemisia tutkijoita ja tutkimusta. Vaan siellä on mukana paljon julkisia ja varsinkin kaupallisia toimijoita. Aika monella meillä löytyy ranteesta se älykello tai urheilukello, joka tallentaa dataa. Se menee pilveen jonnekin ja päätyy kenties käyttöön muuallekin. Millaista hyötykäyttöä te näette näistä tietovarannoista? Et voidaanko sen big datan avulla ratkaista jotain käytännön ongelmia yhteiskunnassa? Esimerkiks nyt terveyspalveluissa?
Pauli Miettinen: Totta kai, ja koko ajan tehdään. Meilläkin täällä yliopistolla vaikka terveystaloustieteen tutkimuksessa mietitään, et mitkä on kustannustehokkaita hoitoja. Siihen tarvitaan sitä dataa siitä, että minkälaista hoitotoimenpidettä on tehty. Ja sillon voidaan ehkä tehdä verorahojen parempaa käyttöä. Ja vastaavasti tietysti terveyspalveluissa tätä tehdään laajemminkin vastaavaa. Siis ihan lääkkeiden tehokkuutta, hoitojen tehokkuutta, mitä pystytään. Sitä on tehty jo pitkään. Tää ei ole välttämättä mikään siis uus asia siinä mielessä, sitä on tehty jo pitkään. Ja nyt voidaan tehdä ehkä vielä enemmän, kun tietoa saadaan mahdollisesti paremmin ja ymmärretään paremmin, miten sitä voidaan hyödyntää.
Risto Löf: Meillei varmaan kaikkia sovelluksia ole vielä keksittykään, mihin sitä voidaan käyttää?
Pauli Miettinen: Ei missään nimessä. Sehän on tässä kiinnostavaa, se tän homman tekeekin.
Antti-Jussi Kouvo: Joo, ihan totta. Ja jos vaik lisää esimerkkejä, niin me voidaan esimerkiksi, mikä on nyt aika ajankohtainen ongelma on asuinalueiden eriytyminen. Niin me voidaan esimerkiks tämmösiä asioita tutkii kännykkäverkkojen avulla. Kerätä sieltä tietoa ihmisten liikkeistä ja kenen kans he on tekemisissä. Me saadaan aika nopeasti ja tehokkaasti iso kuva mahdollisesti haitallisestakin kehityksestä. Ja siis näitähän vois olla ihan rajattomasti, kunhan jaksetaan keksiä. Että aineistoa periaatteessa on olemassa.
Risto Löf: Suuret monikansalliset tietoyritykset, kuten Google ja Apple, niin nehän kerää meistä kaikista paljon tietoa. Yksityinen käyttäjä ei aina tiedä, mihin niitä tietoja käytetään. Tässä toinen puoli on tietysti se innostus, että meillä on paljon dataa käytössä. Mut pitääkö yksityisen kansalaisen olla huolissaan siitä, miten hänen omia tietoja hyödynnetään?
Pauli Miettinen: No tässä on kaksi peluria. Tässä on se valtiovalta, joka sitä kerää ja sitten on nää yksityiset kaupalliset toimijat, jotka sitä dataa kerää. Kaupallisten toimijoiden puolesta ehkä mä sanoisin, että yksityisen kansalaisen olisi hyvä ymmärtää, mitä kerätään. Ja ennen kaikkea ei ymmärretä sitä, että kuinka paljon voidaan tästä kansalaisesta oppia yhdistelemällä niitä eri tietoja. Et saattaa tuntua jotenkin viattomalta antaa jollekin firmalle joku tieto jossain. Mutta pitää ymmärtää, et se voidaan yhdistää johonkin muuhun tietoon jostain muualta ja kolmanteen tietoon jostain kolmannesta lähteestä, jonka jälkeen se firma saattaa tietää yllättävän paljon. Jokaisen täytyy tehdä se päätös omalla tavallaan, että haluaako saada sen palvelun, mitä se yritys tarjoaa. Käytännössähän nämä yritykset kerää tätä informaatiota myydäkseen mainoksia ja rahoittaakseen oman toimintansa sillä toiminnalla. Et paljon saadaan erilaisia ilmaisia palveluita, on se sitten Google-hakukoneet tai Facebook tai joku vastaava. Eihän ne hyväntekeväisyyttään niitä pyöritä, vaan ne pyörittää niitä sillä mainostulolla, mitä ne saa. Niin sitten se on vähän tiettyyn pisteeseen asti jokaisen oma valinta, että haluaako tämmösen ilmaisen palvelun saada sillä, että antaa tämän datan. Jos kukaan ei koskaan antais mitään dataa, niin sit me maksettais 10 senttiä jokaisesta Google-hausta ja viisi senttiä jokaisesta sähköpostista. Sitäkin voi miettiä, et oisko se maailma, jossa haluaa elää.
Antti-Jussi Kouvo: Ihan samaa mieltä tosta, et kyllähän tää vaatii kansalaisilt paljon enemmän kuin joskus aikoinaan ja miettii. Mutta toisaalta sit ehkä toi just toinen puoli asiasta. Sit kun meil on sitä avoint dataa saatavilla, niin kyllähän se toisaalta sit myös mahdollistaa sen datan käytön kaikkiin myönteisinkin tarkoitusperiin. Et kolikolla on kaksi puolta.
Risto Löf: Muistelen Pauli, että joskus aiemmin keskusteltiin tästä asiasta ja sanoit silloin myös sen näkemyksen, et tää voi olla sukupolvikysymys. Et nuoret, jotka verkossa nykyään on, niin hyvin suvereenisti kyllä myös jakaa tietoa itsestään. Eikä koe sellaisia salaliittoteorioita ympärillä kuin moni muu.
Pauli Miettinen: Joo, tai mä näkisin, että se, mikä on siis sellaista dataa, mitä me pidetään yksityisenä datana, niin se on sosiaalinen konstruktio ja se on muutoksessa. Ja on varmasti aina muutoksessa. Ja nyt on jälleen, että tämä esimerkki, mitä mä yleensä käytän, on se, että tossa vielä 20, 10:kin vuotta sitten varoteltiin ihmisiä, että älkää laittako niitä bilekuvia sinne Facebookiin tai jotain krapulapäivityksiä. Että sitten kun te kasvatte isoiksi ja haette töitä, niin ei työnantajat ota teitä töihin, jos teillä on tällästä postatusta sosiaalisessa mediassa. Mä sanoisin, että aika ohueks käy tää työntekijäpooli mistä palkataan, jos kieltäytyy sellasia työntekijöitä palkkaamasta, jotka on laittanu opiskeluaikoina jonkun bilepäivityksen.
[naurua]
Antti-Jussi Kouvo: Varsinkin jos pomoltakin löytyy sieltä vastaava.
Pauli Miettinen: No nimenomaan. Et siis tää on muuttunu, ei tää oo enää ongelma. Mut se toki voi muuttua toiseenkin suuntaan. Että esimerkiks me puhelinluetteloiden aikakaudella kasvaneet ihmiset saatetaan pitää loogisena ideaa, että lähetetään jokaiselle ihmiselle semmonen kirja, jossa lukee kaikkien ihmisten nimi, ammatti, osoite ja yhteystiedot. Mutta ei ehkä tänä päivänä menis läpi, et sanottas, et jaetaanko kaikille kuopiolaisille kaikkien kuopiolaisten nimi, ammatti, osoite ja puhelinnumero, sähköpostiosoite. Ja pistetäänkö vaikka syntymäpäivä ja hetu siihen samaan pakettiin.
Risto Löf: Tuo on oivaltava esimerkki. Ennustetaan tässä keskustelun lopuksi hieman tulevaisuutta. Mihin suuntaan datahallinta ja datatalous on menossa? Voidaanko nyt niin sanoa, että ollaanko me kaupallisten toimijoiden armoilla, mutta että meillä tulee tällasia GDPR-tyyppisiä asioita, jotka on kansainvälistä tai kansallista sääntelyä siihen datan hyödyntämiseen. Mikä näyttää olevan tulevaisuuden suunta?
Pauli Miettinen: Niin, mä luulen, et me mennään yhtäältä niinku mä sanoin, niin se, että mitä me halutaan tehdä on jossain määrin muutoksessa. Siis mitä pidetään yksityisenä, mikä on sellaista dataa, mitä me halutaan jakaa. Regularisaatiota tulee, se ehkä aina laahaa vähän perässä. Se on sen olemus. Että ensin täytyy jonkun keksiä jotain ennen kuin sit voidaan miettiä, että mites tätä pitäs säädellä. Ja sitten mitä nyt on havaittavissa, niin kyllähän nää isot kaupalliset pelaajat varsinkin on tajunneet sen riskin siinä. Että jos paljastuu, et he on väärinkäyttäneet niitä suuria datamassoja, mitä he on keränneet, niin siitä voi olla heidän liiketoiminnalleen aika merkittäviä riskejä. Esimerkiksi sen johdosta, et se saattaa johtaa hyvinkin tiukkaan regularisaatioon. Mistä johtuen nyt on havaittavissa, et moni niistä on ryhtyny aika tiukkaankin itsesäätelyyn. Ja jopa vähentämään. Ja sitten tietysti me teknologian kehittäjät tupataan uskoa, että teknologia korjaa minkä teknologia rikkoo. Että nythän meillä sitten on selaimissa yksityisiä tiloja ja kaikkea tällasta yksityisen tiedon seuraamisen vaikeuttamismenetelmiä. Että vasen käsi korjaa, mikä oikealla kädellä rikottiin ainakin johonkin pisteeseen asti. Että jonkin näköiseen tasapainoon mä uskon että me mennään. Joka on kyllä varmasti siis liikkuva tasapainotila vähän laajemmin yhteiskunnan näkemyksestä. Ehkä Antti osaa sanoa paremmin tähän yhteiskuntapuoleen?
Antti-Jussi Kouvo: No joo, en mä ihan myöskään semmosta dystopiaa täs kyl näkis, et täs on joku yritysten kaupallisten toimijoiden ylivalta yhtäkkiä tässä asiassa. Et kyllähän tää monissa muissakin asioissa on sit menny sillai, et kyl se säätely yllättävän nopeasti ja tehokkaasti sit tulee siellä peliin mukaan. Et kyl tää varmaan hyvinkin näin sit on. Mut et kyllähän me semmost kiinnostavaa murroskautta eletään. Nää on aika nopeit muutoksii, mitä täs on tapahtunu ja mistä me joudutaan sit jatkuvasti nyt ja varmaan jatkossakin hakeen sit suuntaan, mihin me täs halutaan mennä.
Risto Löf: Aivan. Ja nyt kun kuulolla oli paljon tutkijoita, niin vinkataan nyt sit vielä lopuks se, että miten teidän verkostoon pääsee mukaan. Teillä on siis olemassa verkkosivut nimeltä Data Driven Research. Ja kun siihen pistää UEFin, niin hakemalla Googlesta se löytyy. Millaista toimintaa teillä on tällä hetkellä?
Pauli Miettinen: No tällä hetkellä koronan vuoks meidän merkittävin toiminta on ollu nää kerran kuukaudessa järjestettävät perjantaiset lounasseminaarit. Mistä ilmotellaan yliopiston viestintäkanavissa. Ne on avoimia kaikille, myös ei-yliopistolaisille. Mutta heidän ihan käytännön syistä sitten pitää ottaa yhteyttä meihin. Jos sattuu tuntemaan jonkun vaikka yritysmaailmasta täällä alueella tai muulla, joka vois olla kiinnostunut jostain, saa toki tulla kuuntelemaan. Niistä myös aikataulu löytyy näiltä verkkosivuilta. Ja sitten kunhan tästä nyt voidaan taas mennä tapaamisiin ja vastaaviin, niin on tarkoitus järjestää esimerkiksi erinäköisiä päiviä, jossa voidaan tuoda esille yliopistossa tehtävää tutkimusta ja osaamista näiltä eri aloilta. Elikkä minun toiveeni olis, että pystyttäis törmäyttämään vähän eri alojen asiantuntijoita, jotka ei ehkä ole tietosiakaan siitä, et minkälaista kaikenlaista osaamista yliopistosta tän alta löytyy. Koska niinku nyt tässä on tullu selväks, ni kaikilla tieteenaloilla tätä tehdään. Monella laitoksella ja monesta tiedekunnasta löytyy sellaista asiantuntemusta, mistä vois olla hyötyä myös johonkin muiden tiedekuntien ja laitosten tutkimukseen. Ja yksi merkittävimmistä tavoitteesta tässä meillä on, että tän avulla ihmiset löytäis toisensa ja löytäisivät sen asiantuntemuksen.
Risto Löf: Kyllä. Kiitos Pauli Miettinen ja Antti-Jussi Kouvo vierailusta Akateemisessa vartissa ja menestystä tutkimukseen.
Antti-Jussi Kouvo: Kiitos.
Pauli Miettinen: Kiitos.