Andmehaldusplaan
Teadusuuringu kavandamise käigus on oluline läbi mõelda ja kirja panna, kuidas toimub andmete kogumine ja nendega töötamine uuringu vältel, kellel on ligipääs andmetele ja vastutus andmete eest, mis saab andmetest pärast projekti lõppemist jne. Selleks tuleb luua andmehaldusplaan ning edasise töö käigus seda järgida. Andmehaldusplaani koostamiseks on hea kasutada tööriista DMPonline.
ANDMETE KOGUMINE JA ORGANISEERIMINE
Kirjelda, kuidas andmed saadakse
- kogun ise
- (taas)kasutan oma varem kogutud andmeid
- kasutan avalikke avaandmeid (Eesti avaandmete portaal)
- (taas)kasutan teiste poolt kogutud andmeid, vt repositooriumide register Re3data
- ostan andmed
- mida tähele panna?
- kui taaskasutatakse või ostetakse andmeid, siis millist versiooni?
- mida tehakse, kui andmete autor laeb üles uue versiooni?
- säilita kasutatav versioon ja selle dokumentatsioon ka oma serveris.
- kontrolli autoriõigusi, litsentse, piiranguid (ligipääs, taaskasutus)
- kontrolli andmete masinloetavust ja koostöövõimet planeeritava infosüsteemiga
Andmekirjeldus
- andmetüübid (eksperiment, vaatlusandmed, küsitlusandmed, audio-video jne)
- kuidas uued andmed integreeruvad juba olemasolevate andmetega
- millised andmed väärivad pikaajalist säilitamist
- kui mõnedele andmehulkadele rakendub autoriõigus või intellektuaalomandi õigus, näita, et sul on luba neid andmeid kasutada
Andmevormingud
- nimeta kasutatavad andmevormingud ja põhjenda neid
- kasuta avatud vorminguid
- kasuta standardseid vorminguid
- kasuta masinloetavaid vorminguid
- uuri, kas vorming võimaldab automaatset metaandmete lisamist
- uuri, kas repositooriumid toetavad valitud vorminguid
- Soovitatavad andmevormingud
Andmemaht
- Hinda andmemahtu projekti lõpus. Sellest sõltuvad paljud järgmised otsustused ja kulud andmehaldusele
- säilitamine
- ligipääs
- varundamine
- andmevahetus
- riist- ja tarkvara
- tehniline tugi
Kuidas andmeid kogutakse
- kas on olemas standardsed protseduurid ja meetodid, nimeta need
- kas on olemas andmestandardid
- kuidas tagatakse andmete kvaliteet (käideldavus, terviklus, konfidentsiaalsus)
- kuidas tegeldakse vigadega (sisestusvead, problemaatilised väärtused)
Tarkvara
- võimalusel kasuta alati avatud lähtekoodiga tarkvara
- hoiab riist- ja tarkvara kulud madalad
- koostöövõimeline teiste avatud lähtekoodiga tarkvaratoodetega
- tarkvara arendab ja toetab suur kogukond (kõrgem kvaliteet, turvalisus ja kaasajastamine; paraku ka vähene dokumentatsioon ja tugi)
- tarkvara peab võimaldama kõiki analüüse uuesti läbi viia
- dokumenteerimine, kui ise luuakse uut tarkvara
- tehniline tugi oma tarkvara puhul, kas seda suudetakse edaspidi pakkuda
- versioonihaldussüsteem git
- pilvepõhine koodirepositoorium GitHub
- avatud tarkvaralitsentsid
Andmete organiseerimine
- ole süstemaatiline ja järjepidev!
- failide nimetamine: lihtne, loogiline, lühenditeta või standardsete lühenditega (riigid, keeled, mõõtühikud, meetodid)
- lühendid läbivalt ühes keeles (kas mrt või mri?)
- failide organiseerimine (variandid: projekti nimi, aeg, koht, koguja, materjali tüüp, vorming, versioon)
- kaustade struktuur olgu hierarhiline, lihtne, loogiline, lühike
- failide kopeerimine mitmesse kohta ei ole hea, hoia ühes kohas, loo otseteed
- versioonihaldussüsteem git
- pilvepõhine koodirepositoorium GitHub
- metaandmete lisamine (kes vastutab, millal lisatakse)
- Artikkel:
ANDMETE DOKUMENTEERIMINE JA METAANDMED
Andmete dokumenteerimine
- väga hea andmete dokumenteerimise juhend:
- Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable - Guide for data documentation (Version 1.2). Zenodo. DOI: http://doi.org/10.5281/zenodo.1914401
- README tekstifail esitatakse koos andmefailidega ja see peaks sisaldama nii palju infot andmefailide kohta, et teistel oleks võimalik andmeid mõista.
- loo üks README.txt fail iga andmekogu kohta
- nimeta see alati kujul README.txt või README.md (Markdown), mitte LOEMIND, readme, ABOUT jne
- README.txt fail peaks kindlasti sisaldama järgmist infot:
- andmekogu pealkiri
- andmekogu lühitutvustus (abstract)
- failide struktuur ja omavahelised seosed
- andmete kogumise meetodid
- kasutatud tarkvara (versioonid)
- kasutatud standardid
- spetsiifiline info andmete kohta (mõõtühikud, lühendite ja koodide selgitused jne)
- andmete taaskasutuse võimalused ja piirangud
- andmekogu üleslaadija kontaktandmed
- README.txt faili loomise juhend
Metaandmed
- administratiivsed metaandmed projekti kohta (ID, rahastaja, PI, õigused ja litsentsid)
- tehnilised metaandmed (riist- ja tarkvara kohta, instrumendid, tööriistad, ligipääsuõigused)
- kirjeldavad metaandmed (autorid, pealkiri, lühikirjeldus, sisukirjeldus)
- DataCite Metaandmete raamistik (kohustuslikud, soovitavad, valikulised) DataCite Eesti konsortsiumi lehel
- metaandmete standardid on standardid selle kohta, milliseid välju oleks vaja täita
- metaandmete kontrollitud sõnastikud ja klassifikatsioonid ütlevad, mida nendele väljadele kirjutada, kasutades standardset terminoloogiat. BARTOC (Basel Register of Thesauri, Ontologies & Classifications)
TEADUSEETIKA. UURINGU VASTAVUS ÕIGUSNORMIDELE
Teaduseetika
- Eesti Teadusagentuur: "Juhised eetikaküsimuste lahendamiseks personaalse uurimistoetuse taotluses“
- juhul, kui projektil ei ole kokkupuudet juhendis mainitud eetiliste küsimustega, siis tuleb ka seda taotluses kirjeldada
- Hea teadustava
Isikuandmete kaitse
- siin kirjeldada, kas projektis kogutakse isikuandmeid ja kuidas neid töödeldakse vastavalt Isikuandmete kaitse üldmäärusele ning Eesti Isikuandmete kaitse seadusele
Autoriõigused ja intellektuaalomandi õigus
- kellele kuuluvad andmed (isiklikud õigused ja varalised õigused). Andmetel on alati omanik, ka siis, kui need on avaandmed
- kuidas on andmed litsentseeritud
- Creative Commons litsentsid
ANDMETE TURVALINE SÄILITAMINE TEADUSTÖÖ VÄLTEL
Säilitamine, varundamine, ülekanne ja taaste
- eesmärk on säilitada andmete tehniline ja sisuline kvaliteet:
- käideldavus (kättesaadavus ja juurdepääsetavus)
- terviklus (õigsus, täielikkus ja ajakohasus)
- konfidentsiaalsus (kättesaadav ainult selleks volitatud isikutele või süsteemidele, võtmehaldus, logifailide säilitamine)
- säilitus:
- pilvekeskkonnad
- kesksed serverid
- tundlike andmete serverid
- arvuti kõvaketas
- väline kõvaketas
- mobiilsed seadmed
- varundamine: andmete ja/või programmide hetkeseisu koopia loomine, mis pärast turvaintsidenti võimaldab ennistamist selle teadaoleva hetkeseisuni
- kui sageli varundatakse, mitu koopiat, kas tööprotsess on automatiseeritud
- masterfaili säilitamine ja varundamine
- 3-2-1 reegel: kolm koopiat, hoitakse kahes erinevas kohas, millest üks asub kaugel
- kes vastutab varundamise eest, eriti mobiilsete seadmete puhul
- soovitav on riskianalüüs: mis saab siis kui....
- IT-süsteemid ei tööta
- juhtuvad elektrikatkestused, vee- ja tuleõnnetused
- seade kaob või varastatakse
- avastatakse kahjurvara seadmetes
- töögrupi liige lahkub või sureb jne
- riskide kaalutlemine (tõenäosus ja kahjud)
- riskide hindamine: ohud ja nende esinemise tõenäosus, nõrkused, meetmed
- infoturbe standard ISO/IEC 27001
Ligipääs andmetele, infoturve
- ligipääsuõiguste haldamine (kas kõigil ühtmoodi, lepingupartnerite õigused, ajutise tööjõu õigused)
- logifailide säilitamine
- pseudonümiseerimine, krüpteerimine, võtmehaldus
- andmevahetus, isikuandmed, kolmandad riigid
- organisatoorne ja füüsiline turve: uue töötaja koolitus, lahkuva töötajaga võimalikud kaasnevad probleemid, töösisekorraeeskirjad, tuleohutus, uste lukustamine
- vastutajad
ANDMETE PIKAAJALINE SÄILITAMINE
FAIR andmed
- millistel andmetel on pikaajaline väärtus? Nende säilitamine ja jagamine taaskasutamiseks
- andmete ettevalmistamine jagamiseks, FAIR andmed
- repositooriumi valik
Kuidas tehakse andmed leitavaks (F)
- andmetel on püsiidentifikaator DOI. Vaata DataCite Eesti
- metaandmed on DataCite registris
- standardsed metaandmeid nt Dublin Core
- masinloetavad metaandmed
- andmed ja nende metaandmed on eraldi failides, kuid lingitud
- võtmesõnad ja märksõnad
- versioonihaldus
Kuidas tehakse andmed juurdepääsetavaks (A)
- repositoorium, kus andmed säilitatakse
- millised andmed on avatud juurdepääsuga ehk avaandmed
- millised andmed jäävad suletuks ja mis põhjusel
- metaandmed peavad olema avatud ka juhul, kui andmed ei ole avatud (erandid nt haruldaste liikide asukohaandmed)
- tehnilised metaandmed: vajalik tarkvara (versioon), instrumentide spetsifikatsioonid, tarkvaratööriistad
- krüpteeritud andmed
- autentimine, kellelt küsida juurdepääsuõigusi
- kas on vaja luua kasutajakonto, mis seotakse teatavate tingimustega
Kuidas tehakse andmed koostöövõimelisteks teiste arvutisüsteemidega (I)
- peamiselt repositooriumi ülesanne
- milliseid andmete ja metaandmete standardeid, kontrollitud sõnastikke ja taksonoomiaid kasutatakse
- andmetüüpide ja andmevormingute kirjeldused: kui ei ole standardsed, kuidas tagatakse koostöövõime
- linkimine teiste andmete, metaandmete ja spetsifikatsioonidega
- korrektne viitamine kasutatud andmekogudele
- andmevahetusstandardid
Kuidas tagatakse andmete taaskasutatavus (R)
- osaliselt repositooriumi ülesanne
- kas tegemist on toorandmete, puhastatud andmete või töödeldud andmetega
- embargoperiood, põhjendus
- litsentsid: Creative Commons litsentsid 3.0 Eesti
- viitamine: DataCite viitevormindaja
- standardsed metaandmed, milliseid (erialaseid) standardeid on kasutatud
- andmete päritolu tuvastamine (kes, kus, milleks kogus, kus on avaldatud)
- millist tarkvara versiooni on kasutatud
- kui kaua on tagatud andmete kättesaadavus taaskasutamiseks
- andmete kvaliteedi tagamine (käideldavus, terviklus, konfidentsiaalsus)
- soovitused, kellele võiks need andmed vajalikud olla (README.txt failis)
ANDMETE JAGAMINE
Jagamine
- kas andmed jagatakse repositooriumis või kui supplementary data artikli juures või eraldi artiklina andmeajakirjas
- millises repositooriumis andmeid säilitatakse
- kellele võiksid need andmed kasulikud olla
- kuidas jagad oma andmeid (kas on avaandmed või peab küsima, mis tingimusel saab)
- millal jagad (jooksvalt, pärast publikatsiooni ilmumist, embargo lõppemisel)
- kas andmed on lingitud publikatsiooniga
- lingi andmed oma ORCID kontoga
Juurdepääsupiirangud
- millised andmed on avatud juurdepääsuga ehk avaandmed
- millised andmed jäävad suletuks ja mis põhjusel
- kas on krüpteeritud andmeid
- kuidas toimub autentimine
- andmete omaniku kontaktandmed
VASTUTUSALAD JA ANDMEHALDUSE MAKSUMUS
Kes vastutab andmehalduse eest
- ametikohtade järgi
- juhtivteadur (PI): andmehalduse poliitika, andmehaldusplaani koostamine, lepingud, kulud, koolitused
- teadlased: andmehaldusplaani järgimine ja täiendamine, andmehaldus, probleemide püstitamine
- andmehaldur: koolitused, nõustamine, infoturve, säilitamine, varundamine, riist- ja tarkvara
- laborant, abipersonal vastavalt nendele antud ülesannetele
- töövoo järgi
- kes vastutab andmete kogumise, dokumenteerimise, metaandmestamise, infoturbe jne eest
- näide
Planeeritavad kulud
- kulud on seotud peamiselt tööjõu, riist- ja tarkvaraga
- juhendid, koolitused, ümberõpe, juristi ja/või DPO konsultatsioon, tõlketeenus
- APC
- andmete kogumine: andmete ost, salvestatud intervjuude transkribeerimine
- digiteerimine ja OCR: riist- ja tarkvara, tööjõud
- tarkvaraarendus või tarkvara ost, kasutuslitsentsid
- riistvara: arvutid, serverid, instrumendid, välitööde seadmed
- andmeanalüüs: riist- ja tarkvara, sisseostetud teenused, HPC
- andmete säilitamine ja varundamine: prognoositav andmemaht, 3-2-1 reegel
- andmete pikaajaline säilitamine: ettevalmistamine jagamiseks (vormindamine), anonümiseerimine, säilitamine repositooriumis
- partnerite kohtumised, konverentsid
- projekti andmehaldur
- üldine seisukoht: 5% projekti eelarvest
Rohkem ja põhjalikumat infot avaandmete ning andmehaldusplaani kohta saab lugeda TÜ raamatukogu koostatud avatud materjalidega kursuselt "Teadusandmete haldus ja publitseerimine".
Kontakt:
Tiiu Tarkpea, teadusandmete peaspetsialist, tel 737 5728, tiiu.tarkpea@ut.ee