Autor:
Gabriela Urm

Andmehaldus

Teadusuuringu kavandamise käigus on oluline läbi mõelda ja kirja panna, kuidas toimub andmete kogumine ja nendega töötamine uuringu vältel, kellel on ligipääs andmetele ja vastutus andmete eest, mis saab andmetest pärast projekti lõppemist jne.

Selleks tuleb luua andmehaldusplaan ning edasise töö käigus seda järgida. Andmehaldusplaani koostamiseks on hea kasutada tööriista DMPonline.

Rohkem ja põhjalikumat infot avaandmete ning andmehaldusplaani kohta saab lugeda TÜ raamatukogu koostatud avatud materjalidega kursuselt "Teadusandmete haldus ja publitseerimine".

ANDMETE KOGUMINE JA ORGANISEERIMINE
  • kogun ise  
  • (taas)kasutan oma varem kogutud andmeid  
  • kasutan avalikke avaandmeid (Eesti avaandmete portaal)  
  • (taas)kasutan teiste poolt kogutud andmeid, vt repositooriumide register re3data, andmeregistrid (Mendeley Data, DataCite Commons jm)  
  • ostan andmed   
  • mida tähele panna? 
    • kui taaskasutatakse või ostetakse andmeid, siis millist versiooni?  
    • mida tehakse, kui andmete autor laeb üles uue versiooni?  
    • säilita kasutatav versioon ja selle dokumentatsioon ka oma serveris.  
    • kontrolli autoriõigusi, litsentse, piiranguid (ligipääs, taaskasutus)  
    • kontrolli andmete masinloetavust ja koostöövõimet planeeritava infosüsteemiga
  • andmetüübid (eksperiment, vaatlusandmed, küsitlusandmed, audio-video jne)  
  • kuidas uued andmed integreeruvad juba olemasolevate andmetega  
  • millised andmed väärivad pikaajalist säilitamist  
  • kui mõnedele andmehulkadele rakendub autoriõigus või intellektuaalomandi õigus, näita, et sul on luba neid andmeid kasutada 
  • Hinda andmemahtu projekti lõpus. Sellest sõltuvad paljud järgmised otsustused ja kulud andmehaldusele: 
    • säilitamine   
    • ligipääs   
    • varundamine  
    • andmevahetus  
    • riist- ja tarkvara  
    • tehniline tugi  
  • kas on olemas standardsed protseduurid ja meetodid (nimetada, linkida)
  • kas on olemas andmestandardid (nimetada, linkida)
  • kuidas tagatakse andmete kvaliteet (käideldavus, terviklus, konfidentsiaalsus)  
  • kuidas tegeldakse vigadega (sisestusvead, problemaatilised väärtused)
  • võimalusel kasuta alati avatud lähtekoodiga tarkvara  
  • hoiab riist- ja tarkvara kulud madalad  
  • koostöövõimeline teiste avatud lähtekoodiga tarkvaratoodetega  
  • tarkvara arendab ja toetab suur kogukond (kõrgem kvaliteet, turvalisus ja kaasajastamine; paraku ka vähene dokumentatsioon ja tugi)  
  • tarkvara peab võimaldama kõiki analüüse uuesti läbi viia  
  • dokumenteerimine, kui ise luuakse uut tarkvara  
  • tehniline tugi oma tarkvara puhul, kas seda suudetakse edaspidi pakkuda  
  • versioonihaldussüsteem git 
  • pilvepõhine koodirepositoorium GitHub  
  • avatud tarkvaralitsentsid  
  • ole süstemaatiline ja järjepidev!  
  • failide nimetamine: lihtne, loogiline, lühenditeta või standardsete lühenditega (riigid, keeled, mõõtühikud, meetodid)   
  • lühendid läbivalt ühes keeles (kas MRT või MRI?)   
  • failide organiseerimine (variandid: projekti nimi, aeg, koht, koguja, materjali tüüp, vorming, versioon)  
  • kaustade struktuur olgu hierarhiline, lihtne, loogiline, lühike
  • kuidas toimub versioonihaldus ja mis probleemid võivad tuleneda uute versioonide üleslaadimisest
  • failide kopeerimine mitmesse kohta ei ole hea, hoia ühes kohas, loo otseteed
  • metaandmete lisamine (kes vastutab, millal lisatakse) 
  • Artikkel:

  

ANDMETE DOKUMENTEERIMINE JA METAANDMED
  • väga hea andmete dokumenteerimise juhend:  
    • Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable - Guide for data documentation (Version 1.2). Zenodo. DOI: https://doi.org/10.5281/zenodo.1914401  
  • README tekstifail esitatakse koos andmefailidega. README.txt fail annab teavet andmekogu kohta ja võimaldab andmeid õigesti tõlgendada nii endal kui ka teistel teadlastel pärast andmete jagamist või avaldamist    
    • loo üks README.txt fail iga andmekogu kohta  
    • nimeta see alati kujul README.txt või README.md (Markdown), mitte LOEMIND,  readme, ABOUT jne  
  • README.txt fail peaks kindlasti sisaldama järgmist infot:   
    • andmekogu pealkiri  
    • andmekogu lühitutvustus (abstract)  
    • failide struktuur ja omavahelised seosed  
    • andmete kogumise meetodid  
    • kasutatud tarkvara (versioonid)  
    • kasutatud standardid  
    • spetsiifiline info andmete kohta (mõõtühikud, lühendite ja koodide selgitused jne)  
    • andmete taaskasutuse võimalused ja piirangud  
    • andmekogu üleslaadija kontaktandmed  
    • README.txt faili loomise juhend  

  

TEADUSEETIKA. UURINGU VASTAVUS ÕIGUSNORMIDELE
  • siin kirjeldada, kas projektis kogutakse isikuandmeid ja kuidas neid töödeldakse vastavalt Isikuandmete kaitse üldmäärusele ning Eesti Isikuandmete kaitse seadusele
  • kellele kuuluvad andmed (isiklikud õigused ja varalised õigused).  Andmetel on alati omanik, ka siis, kui need on avaandmed  
  • kuidas on andmed litsentseeritud
  • Creative Commons litsentsid

Väljavõtted TÜ juristi Reet Adamsoo koostatud autoriõiguste juhendist, mida võib ja tuleks kasutada andmehaldusplaani koostamisel:

  • Andmed kuuluvad Tartu Ülikoolile. Grandi tulemuste, sh andmete varalised õigused loovutavad grandi täitjad ülikoolile töölepinguga (akadeemilised töötajad) või muu kirjaliku dokumendiga (intellektuaalomandi loovutamise akt)

  • Andmed avalikustatakse Creative Commons litsentsiga CC-BY 4.0

  • Kolmas isik, kelle andmeid on kasutatud grandi tulemuste loomiseks võib seada andmete kasutamisel piiranguid. Sel juhul tuleb andmete litsentseerimisel neid piiranguid arvesse võtta, st andmete kasutamiseks saab anda litsentsi ainult selles õiguste mahus, mida kolmas isik on lubanud (st õiguste mahus, mida ülikool on kolmandatelt isikutelt saanud)

  • Kui ülikool või kolmas isik, kelle andmeid grandi tulemuste loomiseks kasutatud soovib esitada tulemuste kaitseks patendi- või kasuliku mudeli taotlust, tuleb andmete publitseerimine kuni vastava taotluse esitamiseni edasi lükata

  • Andmekaitse teadustöös juhend
  
ANDMETE TURVALINE SÄILITAMINE TEADUSTÖÖ VÄLTEL
  • eesmärk on säilitada andmete tehniline ja sisuline kvaliteet:  
    • käideldavus (kättesaadavus ja juurdepääsetavus)  
    • terviklus (õigsus, täielikkus ja ajakohasus)  
    • konfidentsiaalsus (kättesaadav ainult selleks volitatud isikutele või süsteemidele, võtmehaldus, logifailide säilitamine)  
  • säilitus: pilvekeskkonnad, kesksed serverid, tundlike andmete serverid, arvuti kõvaketas, väline kõvaketas, mobiilsed seadmed 
  • isikuandmeid sisaldavaid faile ei tohi hoiustada pilvekeskkondades, mille peakorteri juriidiline aadress on väljaspool Euroopa Liitu (Dropbox, Google)
  • varundamine: andmete ja/või programmide hetkeseisu koopia loomine, mis pärast turvaintsidenti võimaldab ennistamist selle teadaoleva hetkeseisuni  
    • kui sageli varundatakse, mitu koopiat, kas tööprotsess on automatiseeritud  
    • masterfaili säilitamine ja varundamine  
    • 3-2-1 reegel: kolm koopiat, hoitakse kahes erinevas kohas, millest üks asub kaugel  
    • kes vastutab varundamise eest, eriti mobiilsete seadmete puhul  
  • soovitav on riskianalüüs: mis saab siis kui....  
    • IT-süsteemid ei tööta  
    • juhtuvad elektrikatkestused, vee- ja tuleõnnetused  
    • seade kaob või varastatakse  
    • avastatakse kahjurvara seadmetes  
    • töögrupi liige lahkub või sureb jne  
  • riskide kaalutlemine (tõenäosus ja kahjud)  
  • riskide hindamine: ohud ja nende esinemise tõenäosus, nõrkused, meetmed  
  • infoturbe standard ISO/IEC 27001
  • TÜ arvutiabi
  • TÜ küberturbe juhised
  • andmete hoiustamise ja varundamise võimalused TÜ-s
  • kes vastutab?
  • ligipääsuõiguste haldamine (kas kõigil ühtmoodi, lepingupartnerite õigused, ajutise tööjõu õigused)  
  • logifailide säilitamine  
  • pseudonümiseerimine, krüpteerimine, võtmehaldus  
  • andmevahetus, isikuandmed, kolmandad riigid  
  • organisatoorne ja füüsiline turve: uue töötaja koolitus, lahkuva töötajaga võimalikud kaasnevad probleemid, töösisekorraeeskirjad, tuleohutus, uste lukustamine  
  • vastutajad
  
ANDMETE PIKAAJALINE SÄILITAMINE
  • millistel andmetel on pikaajaline väärtus? Nende säilitamine ja jagamine taaskasutamiseks  
  • andmete ettevalmistamine jagamiseks, FAIR andmed  
  • repositooriumi valik
  • andmetel on püsiidentifikaator DOI
  • metaandmed on DataCite registris  
  • standardsed metaandmeid nt Dublin Core
  • masinloetavad metaandmed  
  • andmed ja nende metaandmed on eraldi failides, sest andmed võivad olla suletud, metaandmed peavad olema avatud. Failid omavahel lingitud 
  • võtmesõnad ja märksõnad  
  • versioonihaldus  
  • repositoorium, kus andmed säilitatakse  
  • millised andmed on avatud juurdepääsuga ehk avaandmed  
  • millised andmed jäävad suletuks ja mis põhjusel   
  • metaandmed peavad olema avatud ka juhul, kui andmed ei ole avatud (erandid nt haruldaste liikide asukohaandmed)  
  • tehnilised metaandmed: vajalik tarkvara (versioon), instrumentide spetsifikatsioonid, tarkvaratööriistad
  • kas on krüpteeritud andmeid  
  • autentimine, kellelt küsida juurdepääsuõigusi  
  • kas on vaja luua kasutajakonto, mis seotakse teatavate tingimustega
  • peamiselt repositooriumi ülesanne 
  • milliseid andmete ja metaandmete standardeid, kontrollitud sõnastikke ja taksonoomiaid kasutatakse  
  • andmetüüpide ja andmevormingute kirjeldused: kui ei ole standardsed, kuidas tagatakse koostöövõime  
  • linkimine teiste andmete, metaandmete ja spetsifikatsioonidega  
  • korrektne viitamine kasutatud andmekogudele
  • lisa alati oma andmekogule viitevorming
  • andmevahetusstandardid
  • osaliselt repositooriumi ülesanne 
  • lisa README.txt fail
  • kas tegemist on toorandmete, puhastatud andmete või töödeldud andmetega  
  • embargoperiood, põhjendus  
  • litsentsid: Creative Commons litsentsid 3.0 Eesti  
  • viitamine: DataCite viitevormindaja  
  • standardsed metaandmed, milliseid (erialaseid) standardeid on kasutatud  
  • andmete päritolu tuvastamine (kes, kus, milleks kogus, kus on avaldatud, DOI-d)  
  • millist tarkvara versiooni on kasutatud  
  • kui kaua on tagatud andmete kättesaadavus taaskasutamiseks  
  • andmete kvaliteedi tagamine (käideldavus, terviklus, konfidentsiaalsus)  
  • soovitused, kellele võiks need andmed vajalikud olla (README.txt failis)  
  
ANDMETE JAGAMINE
  • kas andmed jagatakse repositooriumis või kui supplementary data artikli juures või eraldi artiklina andmeajakirjas  
  • millises repositooriumis andmeid säilitatakse
  • kellele võiksid need andmed kasulikud olla  
  • kuidas jagad oma andmeid (kas on avaandmed või peab küsima, mis tingimusel saab)  
  • millal jagad (jooksvalt, pärast publikatsiooni ilmumist, embargo lõppemisel)  
  • kas andmed on lingitud publikatsiooniga  
  • lingi andmed oma ORCID kontoga
  • millised andmed on avatud juurdepääsuga ehk avaandmed  
  • millised andmed jäävad suletuks ja mis põhjusel   
  • kas on krüpteeritud andmeid  
  • kuidas toimub autentimine
  • kes otsustab juurdepääsuõiguste üle ja sõlmib lepingud
  • andmete omaniku kontaktandmed (mõtle pikale perspektiivile!)

  

VASTUTUSALAD JA ANDMEHALDUSE MAKSUMUS
  • ametikohtade järgi  
    • juhtivteadur (PI): andmehalduse poliitika, andmehaldusplaani koostamine, lepingud, kulud, koolitused  
    • teadlased: andmehaldusplaani järgimine ja täiendamine, andmehaldus, probleemide püstitamine  
    • andmehaldur: koolitused, nõustamine, infoturve, säilitamine, varundamine, riist- ja tarkvara  
    • laborant, abipersonal vastavalt nendele antud ülesannetele  
  • töövoo järgi 
    • kes vastutab andmete kogumise, dokumenteerimise, metaandmestamise, infoturbe jne eest  
  • näide  
  • kulud on seotud peamiselt tööjõu, riist- ja tarkvaraga  
  • juhendid, koolitused, ümberõpe, juristi ja/või DPO konsultatsioon, tõlketeenus  
  • APC  
  • andmete kogumine: andmete ost, salvestatud intervjuude transkribeerimine  
  • digiteerimine ja OCR: riist- ja tarkvara, tööjõud  
  • tarkvaraarendus või tarkvara ost, kasutuslitsentsid  
  • riistvara: arvutid, serverid, instrumendid, välitööde seadmed  
  • andmeanalüüs: riist- ja tarkvara, sisseostetud teenused, HPC  
  • andmete säilitamine ja varundamine: prognoositav andmemaht, 3-2-1 reegel  
  • andmete pikaajaline säilitamine: ettevalmistamine jagamiseks (vormindamine), anonümiseerimine, säilitamine repositooriumis  
  • partnerite kohtumised, konverentsid  
  • projekti andmehaldur
  • üldine seisukoht: 5% projekti eelarvest 
Kas leidsite vajaliku informatsiooni? *
Aitäh tagasiside eest!