Lehti

Tutkijan avoimet arkistot ja niiden käyttö

Viime vuosien avoimen julkaisemisen kulttuuri on tuonut tutkijan ulottuville ilmiömäisen määrän tutkimusmateriaalia, erityisesti avoimia tutkimusartikkeleita. Siinä missä luonnontieteissä tätä uutta tutkimusmateriaalia on hyödynnetty systemaattisesti jo vuosia, ihmis- ja yhteiskuntatieteissä avointa materiaalia käytetään tutkimusjulkaisujen perusteella selkeästi vähemmän. Tässä kirjoituksessa pohdin syitä tähän eroon ja mietin ihmis- ja yhteiskuntatieteiden julkaisukulttuurin tulevaisuutta.

Erityisesti ihmistieteissä luotetaan edelleen perinteiseen malliin, jossa tutkimusartikkelit julkaistaan jo vuosikymmeniä sitten asemansa vakiinnuttaneissa lehdissä. Lähes jokaisella tieteenalalla on lehtiä, joissa kaikki tutkijat pyrkivät julkaisemaan. Lisäksi suuret kustantajat tuottavat artikkelikokoelmia ja monografioita, joiden toimittajiksi ja kirjoittajiksi valikoituvat alan parhaat oppineet ja lupaavimmat nuoret tulokkaat. Vaikka julkaisukulttuuri on muutostilassa, tällaiset julkaisut painetaan perinteiseen tapaan paperille (tosin monissa tapauksissa rinnalla ilmestyy sähköinen versio).

Tutkija julkaisee tällöin lehdissä kuten ennenkin. Jos tutkimusorganisaatio niin vaatii, tutkija (tai kirjasto) myös rinnakkaistallentaa artikkelin käsikirjoitusversion tai avoimena julkaistun artikkelin lopullisen version organisaation julkaisuarkistoon kustantajan niin salliessa. Tämänkaltaista toimintaa kutsutaan vihreäksi avoimeksi julkaisemiseksi (green open access).

Vihreän reitin rinnalle on vähitellen syntynyt hybridijulkaisemisen polku: kirjoittaja saattaa rahaa vastaan ostaa lehti- tai kirja-artikkelinsa avoimeksi muuten suljetussa julkaisussa. Kolmanneksi poluksi avoimeen julkaisemiseen on vakiintunut niin sanottu kultainen malli (gold open access), jossa kirjoittaja julkaisee täysin avoimessa lehdessä artikkelinsa joko maksua vastaan tai kuluitta1.

Näistä kolmesta avoimesta julkaisutavasta vihreä reitti eli rinnakkaistallentaminen on ainakin Suomessa ylivoimaisesti suosituin ihmis- ja yhteiskuntatieteissä. Syykin on selvä: rinnakkaistallentaminen ei maksa mitään. Luonnontieteissä taas resurssit ovat usein suuremmat ja tutkimuksen tulokset vanhenevat nopeammin. Siksi on tärkeää saada lopulliset artikkelit avoimeksi heti, jotta kukaan ei pääse esittämään samoja tuloksia aiemmin, ja sen takia kultaisen tien tai hybridimallin avoimeen julkaisemiseen panostetaan voimakkaasti.

Julkaisuarkistojen hyökyaalto

Avointen julkaisujen pitkäaikaissäilytyksen varmistamiseksi on perustettu lukematon määrä yliopistojen ja muiden tutkimuslaitosten julkaisuarkistoja. Niihin on koottu varmuuskopiot tai rinnakkaistallenteet tutkijoiden julkaisemista artikkeleista ja usein muutakin materiaalia, kuten kirja-arvosteluja, katsauksia ja populaariartikkeleita.2

Eri instituutioiden julkaisuarkistojen lisäksi ovat yleistyneet niin sanotut preprint-arkistot, jotka sisältävät useimmiten vertaisarvioimattomia tekstejä (preprint). Varsinkin luonnontieteissä käytetään paljon tällaisia ei-kaupallisia arkistoja, kuten muun muassa matematiikan, tietojenkäsittelytieteen, fysiikan ja tähtitieteen keskeiseksi julkaisuarkistoksi noussut arXiv sekä lääketieteen ja biotieteiden julkaisuarkisto PubMed Central. Tekijät hyödyntävät niitä varatakseen itselleen tietyn aiheen ja saadakseen kommentteja esimerkiksi viimeistellylle kongressiesitelmälle tai muuten luonnosmaiselle tekstille.3 Usein, mutta ei aina, nämä artikkelit lähetetään sitten vertaisarvioitavaksi varsinaisiin lehtiin. Kaikki tiettyjen tieteenalojen ympärille syntyneiden julkaisuarkistojen materiaali ei kuitenkaan ole vertaisarvioimatonta, vaan mukana voi olla myös myöhempiä käsikirjoitusversioita tai jopa julkaistuja versioita teksteistä. Viime vuosina preprint-arkistoja on alkanut syntyä myös eri kielialueiden julkaisuille sekä ihmis- ja yhteiskuntatieteisiin tutkijoiden turhautuessa julkaisuprosessin hitauteen.4

Näiden tutkijavetoisten, ei-kaupallisten julkaisuarkistojen lisäksi on perustettu kaupallisia julkaisuarkistoja, kuten Academia.edu ja ResearchGate, joilla on muitakin tehtäviä. Julkaisujen lukemisen ja lataamisen lisäksi alustoilla voi muun muassa seurata muita tutkijoita ja omien artikkeleiden vaikuttavuutta sekä käydä keskustelua artikkelien luonnoksista. Nämä kaupalliset palvelut eivät kuitenkaan ole avoimia toisin kuin tutkimusorganisaatioiden julkaisuarkistot tai preprint-arkistot: julkaisujen lataaminen vaatii rekisteröitymisen, eikä palveluun tallennettuja artikkeleita voi lisensioida. Lisäksi palvelujen kaupallinen luonne näkyy niiden aggressiivisessa markkinoinnissa ja pitkäaikaisen luotettavuuden puutteessa. Vielä erikseen pitää mainita filosofian alalle tutkijavoimin perustettu ja tutkimusorganisaatioiden tuella pyörivä PhilPapers, jolla on myös monia kaupallisten palvelujen piirteitä.

Koska ei-kaupallisten julkaisuarkistojen sisältö on avointa ja vapaasti käytettävissä lisenssien tai muiden käyttöehtojen puitteissa, kentälle on syntynyt erilaisia megajulkaisuarkistoja, joiden tavoitteena on haravoida kaikki maailman avoin materiaali yhteen. Näissä arkistoissa tärkein valintaperuste on avoimuus, vaikkakin osa niistä sisältää myös suljettua aineistoa. Siten tutkijan on oltava huolellinen käyttäessään materiaalia ja arvioidessaan esimerkiksi käsikirjoitusten vertaisarviointistatusta.

Pisimmälle keräilyssä lienee päässyt brittiläinen Core, joka sisälsi syyskuun puolivälissä yli 241 000 000 dokumenttia. Lähes yhtä paljon materiaalia on koostettu saksalaiseen Baseen, jonka haulla voi valita avoimet dokumentit. Muita suuria julkaisuarkistoja ovat EU:n tukeman OpenAIREn Zenodo, avoimien lehtien hakemisto DOAJ ja jo monille tuttu Google Scholar, joka pitää sisällään sekä avointa että ei-avointa materiaalia. Näiden arkistojen lisäksi myös preprinteille on omat megajulkaisuarkistonsa, kuten OSF ja Open Science.

Toinen tapa hyödyntää julkaisuarkistoja on perustaa avoimia overlay-lehtiä, jotka rakentuvat yleensä jonkin teeman tai tieteenalan ympärille5. Toimittaja hakee tietystä aiheesta avoimia artikkeleita julkaisuarkistoista ja liittää kirjoitukset lehden numeron sisällöksi. Lisenssin salliessa tämä on aivan laillista toimintaa, ja lukija voi hyötyä toimittajan kuratoinnista. Mikäli toimittaja on tunnettu tieteenalallaan, lukija voi myös luottaa siihen, että artikkelit ovat ainakin jossain määrin luotettavia, vaikka eivät olisikaan vertaisarvioituja.

Avoimen materiaalin käyttövaikeudet

Luulisi, että tällaisen avoimen materiaalin runsaudenpulassa tutkija voi vain kukoistaa. Näin onkin pitkälti luonnontieteissä, kuten lääketieteessä, jossa julkaisukulttuuri on painottunut kultaisen tien avoimuuteen eli valtaosasta artikkeleista on lopullinen versio välittömästi saatavilla.

Vihreän reitin avoimessa julkaisemisessa tilanne on kuitenkin toinen. Kustantaja sallii yleensä vain vertaisarvioinnin jälkeisen käsikirjoitusversion eli postprintin tallentamisen, vaikka siihen voikin lisätä vielä vedosvaiheessa tulleet muutokset.6 Olennainen ero maksulliseen avoimeen julkaisemiseen on se, että kirjoittaja ei voi yleensä tallentaa artikkeliversiota, joka sisältää kustantajan taiton ja niin muodoin lopulliset sivunumerot. Toisin sanoen rinnakkaistallenteeseen ei yleensä voi viitata samaan tapaan kuin painettuun artikkeliin (tai ostettuun e-versioon artikkelista). Niinpä hyödyllisestä artikkelista on etsittävä tai hankittava lopullinen versio viittaamista varten. Tämä taas saattaa vaatia varoja, sillä kyseistä lehteä ei välttämättä ole tutkimusorganisaation hankkimassa lehtipaketissa.

Rinnakkaistallentaminen korjaa osaltaan maksumuurien aiheuttamia ongelmia saatavuudessa, vaikka kokonaisia kirjoja ei pääsääntöisesti rinnakkaistallennetakaan. On kuitenkin syntynyt myös muita tapoja päästä käsiksi tutkimusmateriaaliin. Sosiaaliseen mediaan on tullut ryhmiä, joissa haetaan artikkeleita ”lainaksi” viittaamistarkoitusta varten. Lisäksi pääosin venäläisillä palvelimilla on Z-Libraryn ja Sci-Hubin kaltaisia palveluita, joista voi ladata skannattuja kopioita tai eri versioita kirjoista ja artikkeleista. Voi huomauttaa, että tutkijalla on oikeus lähettää artikkelistaan kopio yksityisessä sähköpostiviestissä kollegalle halutessaan, mutta näiden latauspalveluiden toiminta on täysin laitonta, ja kustantajat ovatkin jo pitkään yrittäneet saada ne pois verkosta. Edelleen on syytä pitää mielessä, että tekijät eivät myöskään saa minkäänlaisia korvauksia laittomista kopioista. Siten Sci-Hubia ja vastaavia voidaan verrata aiemmin suosittuihin musiikkia jakaviin piraattipalveluihin.

Tarvitaan kuitenkin avoimempaa viittauskulttuuria, jotta rinnakkaistallentamisesta saadaan kaikki hyöty irti. Periaatteessa rinnakkaistallenteeseen voidaan viitata mainitsemalla normaalien artikkelitietojen lisäksi julkaisuarkiston pysyvä tunniste (esimerkiksi handle-, urn- tai DOI-osoite) ja antamalla sivunumeroksi joko dokumentissa oleva sivunumero tai hakasulkeissa itse laskettu sivu (esimerkiksi kahdeksas sivu olisi [8]). Tällaista viittaamistyyliä ei kuitenkaan juuri näe käytettävän. Syy lienee se, että vaikka viittaus kyllä johtaa lukijan oikean dokumentin oikean kohdan äärelle, lehtien perinteeseen nojautuva viittauspolitiikka ei salli tätä viittaamistapaa.

Miksi sitten näin on? Voi olla, että ihmis- ja yhteiskuntatieteellinen julkaisukulttuuri perustuu vielä siinä määrin painettuihin materiaaleihin, että rinnakkaistallenteita ei pidetä käyttökelpoisina lähteinä. Tämä on hiukan merkillistä ottaen huomioon sen, että useimmiten lopullisen version ja rinnakkaistallenteen erottaa vain se, että voidaan viitata tiettyyn sivunumeroon7. Toinen syy voi olla se, että rinnakkaistallentaminen on vielä suhteellisen uusi toimintatapa, eikä ole ymmärretty, että se voi olla muutakin kuin yliopistohallinnon vaatima byrokraattinen lisäharmi.

Vielä on mainittava toinen, luultavasti merkittävämpi syy rinnakkaistallenteiden käytön vähäisyyteen. Kustantaja nimittäin yleensä vaatii julkaisuviiveen eli embargon, jolloin rinnakkaistallenne avautuu tyypillisesti yhden tai kahden vuoden kuluttua julkaisupäivästä. Luonnontieteissä tämä on pieni ikuisuus, vaikka luonnontieteellisissä julkaisuissa embargot ovat yleensä lyhyempiä. Ihmistieteissä taas tutkimus harvemmin vanhenee vuodessa, vaikka julkaisuviive saattaa kirjoittajaa harmittaakin. Oletettavasti tutkija silti ohittaa materiaalia etsiessään helpommin ne artikkelit, jotka ovat suljettuja embargon vuoksi, ja keskittyy niihin, jotka ovat avoimia tai saatavilla e-artikkeleina esimerkiksi kirjastotietokannassa.

Ehkä tärkein syy rinnakkaistallenteiden saamiin vähäisiin viittausmääriin on kuitenkin kustantajissa. Suuri osa tutkimusartikkeleista on suurten kustantajien julkaisemia. Ne taas haluavat myydä niin painettuja kuin e-artikkeleitaan niin paljon kuin mahdollista ja hyvin siinä onnistuvatkin (voittomarginaalit ovat tunnetusti suuria8). Miksi he suostuisivat mahdollistamaan rinnakkaistallenteisiin viittaamisen omissa lehdissään? Eikö parempi ole vaatia, että kirjoittaja ostaa e-version artikkelista etsiäkseen siitä viittaamiseen tarvittavat sivunumerot?

Avoimen julkaisemisen kehityssuuntia

Aiheeseen liittyen on kiinnostavaa tarkastella eurooppalaisten tiederahoittajien ja EU:n lanseeraamaa avoimen julkaisemisen Plan S -suunnitelmaa, johon myös Suomen Akatemia on tullut innolla mukaan. Suunnitelman taustaryhmä cOAlition S linjasi ensin, että hybridijulkaisemisesta on päästävä mitä pikimmin eroon sen vuoksi, että kirjastot maksavat kustantajille kahteen kertaan: ensin lehtitilauksissa ja sitten julkaisumaksuissa. Tämän takia kaikkien pitäisi julkaista joko kultaisen reitin avoimissa julkaisuissa tai niin sanotuissa transformatiivisissa lehdissä, jotka suostuvat muuttumaan hybridilehdistä täysin avoimiksi vuoteen 2025 mennessä. Vasta kommentointikierroksen jälkeen suunnitelmaa tarkennettiin niin, että myös vihreä avoin julkaiseminen on hyväksyttävää, tosin tiukan strategian mukaan: embargoa ei sallita ja rinnakkaistallentamisessa vaaditaan tiettyjen Creative Commons -lisenssien käyttämistä (suosituksena CC BY). Mikäli kustantaja ei suostu näihin ehtoihin, sen vaatimukset voidaan Plan S:n mukaan ohittaa ja rinnakkaistallentaa artikkeli lyhyellä embargolla (6 kuukautta luonnontieteissä, 12 kuukautta ihmistieteissä).9

Suunnitelman kehitys kuvastaa sitä tosiasiaa, että avoin julkaisukulttuuri on menossa kohti luonnontieteiden suosimaa kultaisen reitin mallia10. Tämä taas vaatii yhä enemmän rahaa, vaikka suuri osa pienemmistä uusista avoimista lehdistä on maksuttomia. Erilaisista vastuullisen metriikan julistuksista (esimerkiksi DORA) huolimatta tutkija kuitenkin yleensä haluaa julkaista tunnetuissa ja korkean Julkaisufoorumi-luokituksen saaneissa alan lehdissä, joita julkaisevat suuret kustantajat, kuten Taylor & Francis, Wiley, Springer, Sage ja Elsevier. Suomen Akatemian Plan S:n mukainen julkaisupolitiikka myös johtaa samaan suuntaan, sillä tutkijoiden julkaisumaksut (keskimäärin lähes 2 000 euroa artikkelia kohden) menevät yliopistolle annetuista yleiskustannuksista ja vihreän reitin avoin julkaiseminen koskee lähinnä niitä aloja, joilla ei ole riittävästi Plan S -yhteensopivia avoimia julkaisukanavia (usein nimenomaan ihmistieteitä).

Tämänkaltainen maksukykyyn perustuva kehitys on kuitenkin haitallista esimerkiksi säätiöapurahalla toimiville tutkijoille, jotka eivät voi pienestä apurahastaan käyttää varoja julkaisumaksuihin, tosin joissakin tapauksissa tämä voidaan huomioida tutkimuskuluissa. Myös kolmannen maailman tutkijoiden mahdollisuudet avata julkaisujaan ovat rajalliset. Onkin silmiinpistävää, että maksuttomien avoimien lehtien määrä on noussut nopeasti nimenomaan Aasiassa, Afrikassa ja Latinalaisessa Amerikassa. Varjopuolena taas on niin sanottujen saalistajajulkaisujen räjähdysmäinen lisääntyminen.11 Saalistajajulkaisujen kustantajat kalastelevat tutkijoilta artikkelimaksuja lupaamalla nopeaa käsittelyaikaa ja helppoa julkaisemista. Käytännössä tällaisten lehtien vertaisarviointi on nimellistä ja toimitustyö heikkotasoista. Saalistajalehdissä julkaiseminen voi tuottaa tutkijalle pysyvän mainehaitan, eikä lehdessä julkaistua artikkelia indeksoida julkaisutietokantoihin lupauksista huolimatta.

Avoimen artikkelijulkaisemisen yleistyminen on eduksi myös köyhille maille, sillä avointa luettavaa on yhä enemmän. Tilanne olisi erityisesti ihmis- ja yhteiskuntatieteiden kannalta vieläkin parempi, jos myös julkaisuarkistojen loputon artikkelimäärä saataisiin hyötykäyttöön. Se ei kovin paljoa vaatisi: tarvitaan vain rinnakkaistallentamisen viittaamisstandardi, joka voitaisiin ottaa käyttöön aluksi vaikkapa overlay-lehdissä ja sitten avoimissa lehdissä. Vähitellen julkaisukulttuuri muuttuu ja myös perinteiset, painetut lehdet mahdollistavat uuden avoimemman viittaustyylin kirjoittajaohjeissaan. Kuka tekee aloitteen?

Viitteet & Kirjallisuus

 1. 1. Lähes kolme neljäsosaa open access -lehdistä ei peri artikkelimaksuja. Avoimen julkaisemisen eri muodoista, ks. Markku Roinila, OA-julkaisemisen peruskäsitteitä. niin & näin 1/16, 57. Verkossa: netn.fi/artikkeli/oa-julkaisemisen-peruskasitteita
 2. 2. Esimerkiksi Helsingin yliopiston julkaisuarkisto Heldaan on kerätty 47 332 rinnakkaistallennettua artikkelia ja Tampereen yliopiston Trepo-julkaisuarkistoon on koottu 6 095 artikkelia (17.9.2022). Ks. myös Janne Vanhanen, Rinnakkaistallentaminen suomalaisissa yliopistoissa. niin & näin 1/16, 77–78. Verkossa: netn.fi/artikkeli/rinnakkaistallentaminen-suomalaisissa-yliopistoissa; Janne Vanhanen, Suomalaisten yliopistojen avointa julkaisemista koskevia linjauksia ja tietokantoja rinnakkaistallennukseen. niin & näin 1/16, verkkoteksti. Verkossa: https://netn.fi/artikkeli/suomalaisten-yliopistojen-avointa-julkaisemista-koskevia-linjauksia-ja-tietokantoja
 3. 3. Ks. Why do people publish on arXiv instead of other places. Verkossa: https://academia.stackexchange.com/questions/75325/why-do-people-publish-on-arxiv-instead-of-other-places
 4. 4. Ks. Markku Roinila, Testissä uudet preprint-arkistot OSF ja Science open. Think Open -blogi 19.11.2018. Verkossa: blogs.helsinki.fi/thinkopen/testissa-uudet-preprint-arkistot-osf-ja-science-open/
 5. 5. Ks. Antti Mikael Rousi & Mikael Laakso, Overlay journals: a study of the current landscape. Verkossa: https://arxiv.org/pdf/2204.03383.pdf 
 6. 6. Artikkeliversion muita nimityksiä ovat final draft ja AAM (Author’s Accepted Manuscript).
 7. 7. Tilanne on hieman toinen luonnontieteissä, joissa artikkeli sisältää usein kaavioita, taulukoita ja kuvia, jotka eivät rinnakkaistallenteessa välttämättä näy selvästi tai oikein.
 8. 8. Ks. esim. Stephen Buranyi, Is the staggeringly profitable business of scientific publishing bad for science? The Guardian. 27.6.2017. Verkossa: https://www.theguardian.com/science/2017/jun/27/profitable-business-scientific-publishing-bad-for-science
 9. 9. Suomen Akatemia linjasi kesällä 2022, ettei se toistaiseksi sovella tätä cOAlition S:n strategiaa.
 10. 10. Kustantajista Springer on voimakkaasti kannattanut tätä mallia. Verkossa: https://www.springernature.com/gp/open-research/about/green-or-gold-routes-to-oa
 11. 11. Ks. Markku Roinila, Näin tunnistat saalistajajulkaisun – viisi vinkkiä tutkijalle. Think Open -blogi 8.11.2020. Verkossa: https://blogs.helsinki.fi/thinkopen/saalistajajulkaisun-tunnistaminen/