Tiedon äärellä - tietopolitiikasta tekoihin

Tietotulva hallintaan semanttisen webin tietoinfrastruktuurilla.

Episode Summary

Mitä tiedon semanttisella yhteentoimivuudella tarkoitetaan ja miksi se on olennaista? Muun muassa näistä kysymyksistä on luvassa mielenkiintoista keskustelua Tiedon äärellä – tietopolitiikasta tekoihin –podcastin uusimmassa jaksossa, kun valtiovarainministeriön erityisasiantuntija Miina Arajärvi haastattelee Aalto-yliopiston viestintätekniikan professoria ja HELDIG-keskuksen johtajaa Eero Hyvöstä. Semanttisen yhteentoimivuuden lisäksi jaksossa keskustellaan tietotulvasta, sekä siitä, miten semanttisen webin tietoinfrastruktuuri ja monitieteinen yhteistyö voisivat tarjota ratkaisun tietotulvan hallintaan.

Episode Transcription

[äänite alkaa]

 

 

Haastattelija 1 [00:00:01]: Hei. Olen Miina Arajärvi ja toimin valtiovarainministeriössä Tiedon hyödyntämisen ja avaamisen hankkeessa erityisasiantuntijana. Tämä on Tiedon äärellä - tietopolitiikasta tekoihin -podcast, jossa pureudumme tietopoliittisiin toimenpiteisiin ja tietopolitiikan kysymyksiin laajemminkin. Podcastissa pohdimme muun muassa sitä, mitä tietopolitiikka oikein on ja miksi julkisen tiedon avoimuus, laatu ja yhteen toimivuus on tärkeää. Pohdimme näitä aiheita eri näkökulmista yhdessä mielenkiintoisten ja vaikuttavien vieraiden kanssa. Toivottavasti viihdytte kanssamme. Tässä podcast-jaksossa pureudumme keskustelemaan tiedon semanttisesta yhteen toimivuudesta ja tiedon hyödyntämisestä. Podcastimme vieraana on Aalto-yliopiston viestintätekniikan professori ja Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIGin johtaja Eero Hyvönen. Tervetuloa Eero.

 

Puhuja 2 [00:01:00]: Kiitos kutsusta.

 

Haastattelija 1 [00:01:05]: Mahtavaa saada sinut podcastimme vieraaksi. Tällä kertaa keskustelemme siis tiedon yhteen toimivuudesta. Erityisesti semanttisesta yhteen toimivuudesta, jolla lyhyesti sanottuna tarkoitetaan eri toimijoiden välillä vaihdetun tiedon merkityksen säilymistä ja ymmärtämistä sellaisena kuin se on alun perin tallennettu. Eero, olet julkaissut valtavasti tutkimuksia liittyen semanttiseen webiin, ontologioihin, tietoinfrastruktuureihin ja tekoälyyn. Toimit Aallossa professorina, mutta myös Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIGin johtajana.

 

Puhuja 2 [00:01:45]: Kyllä. Kaikki alkoi semanttisen webin kehittämisestä maailmalla, joka käynnistyi oikeastaan vuonna 2001 webin isän Tim Berners-Leen ja hänen johtamansa webin kehittämistä koordinoivan V3C-organisaation masinoimana. Järjestimme silloin V3C-väen ja Suomen Tekoälytutkimuksen seuran kanssa Suomessa Helsingin yliopistossa silloisessa teknisessä korkeakoulussa, nykyisessä Aalto-yliopistossa, Semantic Web Kick-off in Finland -nimisen tilaisuuden ja sen jälkeen aihepiiri imaisi minut kokonaan mukaansa. Tämän jälkeen olen toiminut molemmissa yliopistoissa sillan rakennushommissa tietotekniikan, tekoälyn ja ihmistieteiden välillä. Viime vuosina erityisesti uudessa Digitaalisten ihmistieteiden keskuksessa HELDIG.

 

Haastattelija 1 [00:02:32]: Vahvan tieteenteon rinnalla tuntuu kulkevan halu vaikuttaa laajemmin. Tutkimuksillasi ja kehittämistyölläsi on ollut suuri yhteiskunnallinen merkitys. Tästä voidaan pitää esimerkkinä tutkimus- ja kehitystyötä Finlexin parissa, jossa Finlexiin kuuluvia oikeudellisia aineistoja on julkaistu avoimena datana. Tästä kehittämistyöstä puhutaan niin sanottuna semanttisena Finlexinä ja lakisampona. Lisäksi olet ollut kehittämässä kansallista webin tietoinfrastruktuuria FinnONTO-hankkeessa, joka on puolestaan luonut ontologisen perustan kansalliselle webin tietoinfrastruktuurille. Eero, ei liene sattumaa, että tutkimuksillasi on ollut usein vahva kytkentä muuhun yhteiskuntaan. Näinhän ei aina ole tietojenkäsittelytieteissä.

 

Puhuja 2 [00:03:25]: Visio älykkäästä tai jopa viisaasta internetistä, eli semanttisesta webistä, imaisi silloin vuonna 2001 monet muutkin mukaansa ja vuonna 2003 käynnistimme 10 vuoden mittaisen Finto-hankkeiden sarjan, jonka kunnianhimoisena tavoitteena oli avoimen kansallisen semanttisen webin tietoinfrastruktuurin kehittäminen ja soveltaminen eri aloilla. Silloin käänsimme esimerkiksi Kalevalan ensikertaa tietokoneiden ymmärtämäksi semanttiseksi verkoksi Kulttuurisampon palveluksessa ja kehitimme MuseoSuomi-palvelun kansallismuseolle ja parille kaupunginmuseolle. TerveSuomi-portaali taas kehitettiin Terveyden ja hyvinvoinnin laitokselle ja palveluita Nokian kännyköihin ja välineitä Värtsilän voimalaitosten ylläpitoon, eli hyvin monialaista tämä hanke oli. Tätä sarjaa rahoitti 50 suomalaista eri organisaatiota. Se oli kuulemma johtoryhmän koolla mitattuna silloisen Tekesin, nykyisen Business Finlandin, historian suurin hanke. Tämän jälkeen tämä työ on jatkunut lukuisten uusien hankkeiden merkeissä, joista tämä Finlex ja semanttinen Finlex ovat yksi. Siinä on ajatuksena Suomen lainsäädännön ja oikeuskäytännön julkaiseminen oikeusministeriön kanssa semanttisessa webissä. Tänä vuonna valmistuu kehittämämme semanttinen Finlex, datapalveluun perustuva lakisampoportaali, joka toivon mukaan helpottaa lakiaineistoihin tutustumista meille kaikille. Erityisen aktiivista tutkimustyömme on ollut kulttuuriaineistojen julkaisemisen saralla. FinnONTO-infrastruktuuria on hyödynnetty ja sitä on kehitetty edelleen, ja tästä on vähitellen syntynyt käytännön sovellutuksina esimerkiksi sammoiksi nimettyjen semanttisten portaalien sarja. Tietojenkäsittelytieteissä on monia erikoistumissuuntia ja -tapoja. Oma kiinnostukseni on suuntautunut sellaisen uuden teknologian kehittämiseen, josta voisi olla käytännön hyötyä muutamien internetvuosien kuluttua. Abraham Lincoln on sanonut, että paras tapa ennustaa tulevaisuutta on luoda sitä itse ja minusta tämä ajatus sopii erittäin hyvin nopeasti kehittyvälle ja hektiselle web-alalle. Tätä meidän työtämme on myös ajanut jonkinlainen isänmaallinen eetos. Olen aina yrittänyt tarttua isojen kotimaisten aineistojen kehittämiseen jonkinlaisessa Grand Challenge -hengessä. Esimerkkinä vaikka kansallisarkistojen ja puolustusvoimien toisen maailmansodan aineistot Sotasammossa. Kotimaisten kielten keskuksen Nimiarkiston kanssa tehty Nimisampo, jonne on kerätty yli 2 miljoonaa paikan nimeä, ja suomalaisen kirjallisuusseuran Kansallisbiografian tuhansista elämänkerroista taottu Biografiasampo, joita on kirjoittanut lähes tuhat suomalaista tutkijaa.

 

Haastattelija 1 [00:06:10]: Olemmekin maailmassa, jossa tietotulva on valtava ja saamme eri kanavista informaatiota. Samaan aikaan tietoon tulisi suhtautua kriittisesti ja löytää olennaiset tiedot epäolennaisista. Myös tutkimustiedon merkitys korostuu, ja akateeminen tiedon tuotanto, jota pitäisi pystyä yhteiskunnassa hyödyntämään entistä paremmin ja laajemmin. Eero, toimit tutkimusjohtajana kohtuullisen uudella digitaalisten ihmistieteiden osastolla Helsingin yliopistossa HELDIG-keskuksen johtajana. Tätä digitaalisten ihmistieteiden esimarssia voidaan pitää merkittävänä tiedepoliittisena harppauksena. Digitaalisessa ihmistieteiden tutkimuksessa yhdistetään humanistinen tiede, tietojenkäsittelytiede ja sosiaalitieteet. Tämä on mielenkiintoinen yhdistelmä. Itselläni on maisterintutkinto sosiaalitieteestä ja teen väitöskirjaa sosiaalityöstä. Eri tieteenalat ja tieteentekemisen tavat poikkeavat toisistaan, mutta parhaimmillaan tuottavat laaja-alaista ymmärrystä ja tietoa eri ilmiöistä. Mitkä ovat digitaalisten ihmistieteiden keskuksen HELDIGin tavoitteet? Tai vähän toisin sanoen, miksi tällainen digitaalisten ihmistieteiden keskus ja osasto rakennettiin ylipäätään?

 

Puhuja 2 [00:07:31]: Digitaalisten ihmistieteiden keskuksen perustaminen vuonna 2016 Helsingin yliopistoon Suomen akatemian tuella oli kansainvälisestikin noteerattu mittava panostus ihmistieteiden ja digitaalisuuden alueelle. Rahoituksella perustettiin kuuteen eri tiedekuntaan kahdeksan uutta tieteiden välistä professuuria. Digitaalisten tieteiden tutkimus pääkaupunkiseudulla Suomessa sai todellisen piristysruiskeen tässä. Digitalisaatio, esimerkiksi internet ja web, ovat muuttaneet yhteiskuntaa tavattoman nopeasti ja merkittävästi, monella eri tavalla esimerkiksi viestintään ja liiketoimintaan liittyen. Samalla on luotu monia uusia eettisiä tietosuojaan ja juridiikkaan liittyviä haasteita. Näiden haasteiden ratkaisemisessa tarvitaan humanisteja, sosiaalitieteilijoitä ja juristeja, sillä syvimmät digitalisaatioon liittyvät kysymykset eivät ole luonteeltaan teknisiä ja vain insinöörien ratkaistavissa. Ajatellaan vaikka kysymyksiä tekoälyn hyödyntämisestä tuomioistuimissa. Tutkijoiden ja yhteiskunnan käytettäväksi on valtavasti uutta dataa ja big data -aineistoja, ja HELDIG-keskuksen tavoitteena onkin menetelmällisen, erityisesti tietoteknisen osaamisen, ja digiaineistojen hyödyntämisen edistäminen humanistisilla ja sosiaalitieteiden alueilla, sekä oikeusinformatiikassa. Samalla edistetään digitalisaatioon liittyen erilaisten ilmiöiden tutkimista, mikä myös edellyttää tutkimuskohteen teknistä ymmärtämistä. Tietotekniikan tutkijoille, kuten itselleni, tämä yhteistyö humanistien, sosiaalitieteilijöiden ja juristien kanssa tarjoaa uusia kiinnostavia tutkimuskysymyksiä ja mahdollisuuksia monialaiseen tutkimustyöhön. Yksi HELDIG-professori muuten perustettiin teologiseen tiedekuntaan, jossa tutkitaan muun muassa uskonnollista sosiaalista mediaa ja vihapuhetta. Kaiken kaikkiaan tässä ollaan ratkaisemassa tätä tietotulvaongelmaa, joka on yksi keskeinen semanttisen webin tavoitteista. Ihmisvoimin on mahdotonta löytää käsin tai analysoida laajoja nykyisiä data-aineistoja, vaan siihen tarvitaan tekoälyä ja tietokoneita, ja tämän semanttinen web mahdollistaa aivan uudella tavalla. Semanttisen webin ideana on tehdä aineistot tietokoneille ymmärrettäväksi, mikä on edellytys älykkäiden palveluiden kehittämiselle. Jos kone ei ymmärrä sitä dataa, mitä se käsittelee, on hyvin vaikeaa kehittää älykkäitä järjestelmiä. Esimerkkinä sovelluksista on vaikka Nimisampojärjestelmä, joka sisältää aiemmin paperisilla korteilla olleet pari miljoonaa paikan nimeä semanttisena verkkona. Aineisto kerättiin kymmenien vuosien aikana kotimaisten kielten tutkimuskeskuksessa Kotuksessa, ja eräässä kuuluisassa varhaisessa väitöskirjassa, jossa tätä aineistoa käytetään, tutkija selvitti vuosikausien työllä mikä on Suomen yleisin paikan nimi. Kokeiltiin ratkaista tämä sama ongelma Nimisammolla ja oikea vastaus tuli kuin telkkä pönttöön, välittömästi. Kultamitalisti Mäkelä selvisi välittömästi.

 

Haastattelija 1 [00:10:35]: Kuulostaa kyllä todella tärkeältä työltä, mitä keskuksessa teette. Oletteko saaneet jo vastauksia kysymyksiinne tai onko tavoitteet toteutuneet?

 

Puhuja 2 [00:10:51]: Kyllä on tutkittu yhdessä humanistien kanssa. Nimenomaan tätä tarkoitusta varten näitä järjestelmiä on kehitetty, eli kaikissa näissä meidän hankkeissamme on mukana paitsi tietotekniikan osaajia, insinöörejä, niin myöskin tämän substanssialan osaajia. Tosiaan, näitä järjestelmiä kehitetään yhteistyössä eri alojen henkilöiden kanssa. Alojen kirjo on aika hämmentävä suorastaan. Tässä viime vuonna julkaistiin Oxfordin yliopiston usalaisen Schoenberg-instituutin ja ranskalaisen IRHT-keskuksen kanssa keskiaikaisiin käsikirjoituksiin liittyvä semanttinen portaali ja datapalvelu, jossa tutkijat käyttävät tätä aineistoa keskiaikaisten käsikirjoitusten tutkimiseen. Tässä on jälleen uusi sovellusalue tälle teknologialle - sama, jota on käytetty Nokian kännyköissä ja muissakin. Eli tämä teknologia on hyvin mielenkiintoista siinä mielessä, että se soveltuu kovin moniin eri aloihin.

 

Haastattelija 1 [00:11:56]: Kuten tiedetään, tiedolla on suuri merkitys ja tieto on merkittävä pääoma yhteiskunnassa. Myös nämä eri järjestelmät ja niiden kehittäminen. Meillä on myös jatkuva tarve hyödyntää tietoa eri käyttötarkoituksiin, mutta jotta sitä tietoa voidaan hyödyntää, täytyy sen ennen kaikkea olla saatavilla, mutta myös yhteen toimivaa ja laadukasta. Eero, olet tutkinut ja kirjoittanut paljon semanttisesta webistä ja webin tietoinfrastruktuurista. Ymmärtääkseni semanttisen webin kehittäminen käynnistyi jo 20 vuotta sitten, eli tänä vuonna semanttinen web täyttää 20 vuotta. Kun puhutaan tiedon semanttisesta yhteen toimivuudesta, mitä sillä oikeastaan tarkoitetaan? Mikä on semanttinen web?

 

Puhuja 2 [00:12:49]: Semanttinen web on nykyisen webin sisään rakentunut tiedon verkko. Puhutaan käsitteestä web of data. Nykyinen web ja edelleen jatkossakin käytössä oleva web on web of documents, joka linkittää erilaisia webissä olevia sivuja ja dokumentteja toisiinsa hypertekstilinkeillä. Semanttinen web on tämän koko verkon sisälle vähitellen rakentuva dataverkko, joka linkittää tietoa toisiinsa. Tämä syvällinen ajatus on, että tämä meille ihmisille näkyvä perinteinen web, eli web of documents, sitten syntyy entistä älykkäämpänä tämän web of datan pohjalle, koska silloin se perustuu oikeaan dataa, jota siellä on käytettävissä. Esimerkiksi tämä kehityskulku näkyy vaikka Wikipediassa, jossa ensiksi kehitettiin wikipedioita, jotka linkittävät erilaisia tietosivuja toisiinsa ja tällä hetkellä wikipedioita kehittävä järjestö kehittää nimenomaan web of dataa, elikkä kaikkien wikipedioiden ytimessä olevaa tietoa. Ideana on sitten, kun tieto vaikkapa tieto Sibeliuksen syntymäpaikasta ja -ajasta on esitetty datana täällä niin sanotussa wikidatassa, se automaattisesti voidaan julkaista erikielisissä kymmenissä tai jopa sadoissa wikipedioissa.

 

Haastattelija 1 [00:14:16]: Kehitteillä on ollut erilaisia niin kutsuttuja sampoja, mistä tuossa aikaisemminkin mainitsit Finlexin kehittämistyön yhteydessä. Nyt on kehitteillä muun muassa eduskunnan aineistoon Parlamenttisampo, jonka avulla luodaan eduskunnan tietokannoista uudenlainen linkitetyn avoimen datan palvelu ja tutkimusympäristö. Tarkoituksena on siis kehittää ja luoda sellainen ympäristö, jossa tieto olisi paremmin hyödynnettävissä, yhdisteltävissä eri tarkoituksiin. Miten koet, kuinka hyvin Suomessa erityisesti julkisessa hallinnossa hyödynnetään tietoa digitalisaation edistämisessä, päätöksenteossa ja esimerkiksi palveluiden kehittämisessä? Kuinka paljon kiinnitetään huomiota tiedon semanttiseen yhteen toimivuuteen?

 

Puhuja 2 [00:15:08]: Sammoista muodostuu eräänlainen kansainvälinen brändi tutkimustyöllemme ja niitähän on jo kymmenkunta käytettävissä verkossa. Jokaisen sammon yhteydessä julkaisemme semanttisen webin periaatteita noudattaen linkitetyn datan avoimen palvelun, joka yhdistää useamman datalähteen tietoa isommiksi kokonaisuuksiksi. Datapalvelun varaan voidaan sitten kehittää verkkopalveluita, kuten itsetoteuttamiamme sampoportaaleja. Esimerkiksi tässä mainitsemasi Parlamenttisampo sisältää yli 900 tuhatta eduskunnan täysistunnoissa vuodesta 1907 pidettyä puhetta isona semanttisena verkkona. Lisäksi eduskunnan kansanedustat-tietokannasta on luotu toinen, yli 2000 poliitikon verkosto, jota on rikastettu eduskunnan toimintaa kuvaavalla ontologialla ja muilla verkkotietolähteistä saatavilla aineistoilla. Data on rikastettua esimerkiksi Biografiasammossa olevilla sadoilla kansanedustajien elämänkerroilla, wikipedian tiedoilla wikidatasta, kuvilla sieltä, ja aineisto on yhdistetty myös Lakisampoon, joka julkaisee eduskunnan tuottamaa lainsäädäntöä. Parlamenttisammon dataa käytetään jo tällä hetkellä eduskunnassa olevan kielen ja poliittisen kulttuurin ja poliitikkojen verkostojen tutkimuksessa ja tekeillä on kaikille suunnattu avoin Parlamenttisampo, joka tulisi olemaan uusi jäsen sampojen sarjaan. Ylipäänsä semanttisen tiedon haasteita ja mahdollisuuksia tiedostetaan mielestäni hyvin julkishallinnossa. Esimerkiksi meidän tutkimushankkeitamme on eri vaiheissa rahoittanut neljä eri ministeriötä ja monet julkisen sektorin organisaatiot, kuten kansallisarkisto, kansalliskirjasto, museovirasto ja niin edelleen. Ongelmana tuntuu kuitenkin olevan, ettei hyviä ajatuksia - tahtotilaa, päästä helposti toteuttamaan, koska se vaatisi resursseja näissä organisaatioissa ja uuden teknologian osaajia ja rohkeutta ottaa käyttöön tätä uutta teknologiaa, johon aina liittyy tietenkin teknologisia riskejä. Onnistuneista loppuun saakka viedyistä tutkimushankkeista haluaisin erityisesti mainita kansalliskirjaston Finto, ontologiapalvelun, ja yleisten kirjastojen kirjasammon, jolla on ollut vuosittain noin 2 miljoonaa käyttäjää. Molemmat palvelut ovat syntyneet rohkeasti tuotteistamalla FinnONTO-tutkimushankkeessa kehitettyjä prototyyppejä.

 

Haastattelija 1 [00:17:33]: Oletko Eero sitä mieltä, että julkisen hallinnon digitalisaation kehittämisessä ja edistämisessä tulisi myös entistä enemmän ehkä tehdä monitieteellistä yhteistyötä? Jotta sitten pystyttäisiin edistämään muun muassa tätä semanttista yhteen toimivuutta.

 

Puhuja 2 [00:17:57]: Nämä kaikki meidän hankkeemme ovat juuri tällaisia monitieteellisiä hankkeita ja tällä sektorilla, kun liikutaan, niin kenenkään asiantuntemus ei riitä kattamaan tätä kaikkea. Siinä mielessä minusta tämä on aivan ehdoton edellytys useimmissa näissä hankkeissa ja pitäisi vaan saada siihen löydettyä sopiva porukka. Monesti näissä hankkeissa on puutetta erityisesti tietotekniikka osaamisesta, minun mielestäni, että näillä erilaisilla henkilöillä on hyvä käsitys siitä, miten julkishallinto toimii ja minkälaisia ongelmia siellä on, mutta ei ole kykyä toteuttaa niitä hyviä ajatuksia ja sitä tahtotilaa lävitse, kun ei löydy osaajia. Monissa julkisissa organisaatioissa esimerkiksi tietotekniikka on ulkoistettu täysin yrityksille, eikä ole omaa teknistä osaamista siellä talossa enää. Tämän olen kokenut varsin isoksi ongelmaksi monessa tapauksessa. Jos mitä tahansa haluaisi pilotoida tai tehdä, niin pitäisi aina palkata joku yritys tekemään. Se on tietysti ihan hyvä, että yritykset saavat työtä, ja on tärkeää, että yritykset ovat mukana tässä ekosysteemissä, mutta näissä isoissa organisaatioissa pitäisi olla myös omaa kehitysosaamista. Tämä ongelma mielestäni ratkaistiin hienosti esimerkiksi kansalliskirjastossa juuri tämän Finto-palvelun yhteydessä, että meidän tutkimusryhmästämme siirtyi sinne puolenkymmentä ihmistä tekemään erilaisia linkitettyyn dataan liittyviä tehtäviä ja sinne syntyi eräänlainen kansallinen osaamiskeskus vähitellen, joka pystyi itse kehittämään niitä järjestelmiä. Näissä uuden teknologian hankkeissa nimittäin yleensä näitä järjestelyjä ei pystytä ostamaan kaupasta, koska ne ovat uutta teknologiaa, eikä ole olemassa sellaisia tuotteita vielä, vaan valitettavasti joudutaan myös itse kehittämään niitä koko ajan avoimen datan ja avoimen ohjelmiston kehityksen periaatteella.

 

Haastattelija 1 [00:20:04]: Jos mennään vielä tuohon hankkeeseen, jossa itse työskentelen, eli Tiedon hyödyntämisen ja avaamisen hanke. Hankkeen toimenpiteillä ja tuotoksilla, esimerkiksi tiedon hyödyntämisen ja avaamisen strategisilla tavoitteilla ja API-linjauksilla pyritään konkretisoimaan, syventämään ja toimeenpanemaan tietopolitiikkaa. Hankkeen keskiössä ovat tietojen entistä laajempi avaaminen, yhteen toimivuus ja laatu. Näillä toimenpiteillä pyritään edistämään tiedon entistä parempaa hyödyntämistä, esimerkiksi päätöksenteossa ja palveluiden kehittämisessä. Kyse ei ole mistään uudesta asiasta, mutta työsarkaa tuntuu edelleen riittävän, jotta tieto olisi entistä laajemmin hyödynnettävissä ja yhteen toimivaa. Lähdimme tässä keskustelussa liikkeelle työsi yhteiskunnallisesta merkityksestä. Onko jotain, mitä meidän pitäisi omassa hankkeessa ottaa erityisesti huomioon esimerkiksi uusimmasta tutkimuksesta?

 

Puhuja 2 [00:21:09]: Suota tosiaan riittää kuokittavaksi. Näissä käytössä olevissa järjestelmissä on tietenkin aina puutteita ja toivomisen varaa ja toimintatapojen muuttaminen on vaikeaa ja kallista. Uusille ideoille tuntuu usein löytyvän myös vastarintaa, joka on voitettava. Esimerkiksi tässä FinnONTO-hankkeessa kehitetyn ONKI-ontologiapalvelun saaminen kansalliskirjasto Finton palvelukseen kesti noin 10 vuotta, vaikka kirjasto oli innokkaasti hankkeessa mukana alusta asti. Ohjelmistoalalla on sanottu, että jos idean kehittäminen prototyypiksi tutkijoiden toimesta maksaa x euroa, sen tuotteistaminen on 10 kertaa kalliimpaa ja markkinointi saattaa maksaa jopa sata kertaa enemmän. Meidän oma strategiamme tässä tutkimuksessa on ollut edetä pienin askelin, mutta aina tarttumalla välittömästi käytännöntyöhön, kokeilemalla ja pilotoimalla erilaisia ratkaisuja. Onnistuneiden pilottien kautta usko uuteen teknologiaan voi saada tarpeeksi vahvistusta ja toisaalta voidaan ottaa myös perustellusti suunta johonkin toiseen suuntaan ilman massiivisia kuluja, kun liikutaan pienin askelin. Yhteen toimivuuden osalta lähtisin kyllä liikkeelle teknisessä mielessä kansainvälisestä V3C:n standardipinosta ja linkitetyn datan teknologiasta. Niitä tietysti kuitenkin kotimaisiin oloihin soveltaen. Omasta mielestäni me veikkasimme oikeaa hevosta 20 vuotta sitten.

 

Haastattelija 1 [00:22:39]: Tähän loppuun pyytäisin sinua vielä kuvailemaan visiota tai unelmaa siitä, miten yhteiskuntamme toimisi, jos semanttisessa yhteen toimivuuden edistämisessä toteutuisi toivemaisia harppauksia eteenpäin?

 

Puhuja 2 [00:22:59]: Datan julkaisemisen kannalta vision on ollut yhden napin painalluksen periaate. Siinä organisaatiot voisivat julkaista dataa verkossa ja linkittää sitä muihin aineistoihin nappia painamalla automaattisesti, ilman työlästä ja virhealtista ja kallista datan putsaamista ja yhdistelemistä. Meidän hankkeessamme jopa suurin ajasta kuluu tähän turhauttavaan työhön. Tämä ongelma olisi kuitenkin ratkaistavissa helpommin ja helpostikin, kurinalaisemmalla tiedon tuotantoprosessilla. Visioni mukaan tiedon julkaisemisessa verkossa on ollut kolme sukupolvea. Ensimmäisen polven järjestelmät agrikoivat dataa eri lähteistä ja julkaisevat niitä linkitettynä hakukoneisiin ja selailujärjestelmiin. Tällaisia ovat nykyiset verkkopalvelut yleensä, esimerkiksi yleiseurooppalainen European, taikka suomalainen Finna museo ja kulttuuri -alalla. Toisen polven järjestelyssä dataa voidaan paitsi hakea ja selata perinteiseen tapaan, myös analysoida ja visualisoida sitä tieteellisten ihmistieteiden keinoin. Esimerkiksi uudemmat sampoportaalit ovat yleensä tällä toisella tasolla. Kolmannen polven järjestelmissä siirrytään jo tulevaisuudessa uudelle tasolle ja jopa tänäkin hetkenä. Siinä tietokone ei ole vain passiivinen työkalu vaan aktiivinen toimija, joka voi itse etsiä kiinnostavia tutkimuskysymyksiä, ratkoa niitä ja myös perustella vastauksia tekoälyn avulla. Jos tämä ensimmäinen polvi toimi ja toimii perinteisessä webissä, eli tässä web of documents -ympäristössä, niin toinen polvi toimii semanttisessa ympäristössä, eli web of data ympäristössä. Kolmas polvi, järjestelmiä sen sijaan toimii jonkinlaisessa viisauden verkossa, jota voitaisiin ehkä kutsua web of wisdomiksi. Ensimmäisiä askeleita tähän suuntaan me olemme jo ottaneetkin, esimerkiksi biografiasammossa voi hakea yhteyksiä henkilöiden ja paikkojen välillä ja kone myös kertoo suomeksi, millainen yhteys on. Jos esimerkiksi hakee yhteyksiä suomalaisten taiteilijoiden välillä, on yksi vastaus hakutuloksessa, Elin Danielson-Gambogi sai Firenzen kaupungin taidepalkinnon vuonna 1899. Douglas Adamsin klassikkoromaanissa Hitchhiker's Guide to the Galaxy tietokoneelta kysyttiin, mikä on elämän tarkoitus. Vastauksena saatiin 42. Se voi olla oikea vastaus, mutta ainakin itse mielelläni kuulisin perustelut vastaukselle.

 

Haastattelija 1 [00:25:37]: Haluaisitko esittää jotain toiveita tästä näkökulmasta hankkeen toteutukseen tai tietopolitiikkaan yleisemmin?

 

Puhuja 2 [00:25:45]: 20 vuotta sitten, kun aloitimme, sanomani oli ja on edelleenkin, että dataa tuotettaessa pitäisi ottaa huomioon datan koko käyttö ja julkaisukaari tuleviin sovelluksiin ja semanttiseen webiin saakka. Ei ainoastaan tarkastella asiaa oman pienen paikallisen datasiilon kannalta. Ikävä kyllä tässä tarvitaan enemmän yhteistyötä eri organisaatioiden välillä ja yhteistä tietoinfrastruktuuria, mikä tietenkin mutkistaa asioita. Tärkein toiveeni on, että metadataa tuotettaisiin paitsi ihmisen luettavaksi, myös semanttisesti tietokoneita varten, jotka sitä myöhemmin joka tapauksessa hyödyntävät eri tarkoituksiin. Data on kuningas tässä. Silloin tiedon kuvailuissa pitäisi käyttää jo tuotantovaiheessa ontologisia käsitteitä, eli pysyviä yksikäsitteisiä [URI-tunnisteita? 00:26:35], niin sanottuja. Näiden luominen ja päätteleminen on virheherkkää ja paljon kalliimpaa puuhaa. Albert Einstein on sanonut "intellektuaalit ratkovat ongelmia, mutta nerot estävät niiden syntymisen". Siinä on minusta kiteytettynä meidänkin ohjenuoramme ja se, miksi semanttisen webin infrastruktuuria tarvitaan.

 

Haastattelija 1 [00:27:02]: Oikein paljon kiitoksia Aalto yliopiston viestintätekniikan professori ja HELDIG-keskuksen johtaja Eero Hyvönen. Oli todella kiinnostavaa kuulla näkemyksiäsi tiedon yhteen toimivuudesta ja hyödyntämisestä myös. Ajatuksesi ja ehdotuksesi tulevat auttamaan meitä tietopolitiikan syventämisessä. Kiitos.

 

Puhuja 2 [00:27:24]: Kiitos.

 

Haastattelija 1 [00:27:25]: Tämä oli Tiedon äärellä - tietopolitiikasta tekoihin -podcast-sarjan kuudes jakso. Julkaisemme seuraavan podcast-jakson touko-kesäkuun aikana. Kiitos kaikille kuulijoille.

 

 

 

[äänite päättyy]