1. Avaleht
  2. Teadmusbaas
  3. Andmekvaliteet
  4. 1. Sissejuhatus

1. Sissejuhatus

Käesolev juhis on üks osa andmehalduse raamistikust[1]. Andmehaldus on organisatsiooni või asutuse tegevusvaldkond, mis võimaldab tal hallata oma andmeid varana. Tõhusast andmehaldusest organisatsioonile tulenev kasu seisneb andmetest täiendava väärtuse loomises ja paremate juhtimisotsuste langetamises. Nimetatud kasu on aga võimalik saavutada vaid siis, kui organisatsiooni andmed on kvaliteetsed. Seejuures on andmekvaliteedi haldamise eelduseks andmekirjelduse olemasolu, mille loomiseks leiab juhised samuti andmehalduse raamistiku osana valminud andmekirjelduse juhisest[2].

Andmekvaliteet näitab, mil määral andmekarakteristikud rahuldavad teadaolevaid või eeldatavaid vajadusi kasutamisel ettemääratud tingimustes. Andmekvaliteeti aitavad tagada andmehalduse raamistikus kirjeldatud andmekvaliteedi haldamise protsessid, mis katavad andmekvaliteedi reeglite haldamiseks, andmekvaliteedi mõõtmiseks ja seeläbi andmekvaliteedi raportite loomiseks ning andmete parandamiseks (andmehalduri poolt käsitsi või IKT osakonna poolt) tehtavad tegevused. Loetletud tegevuste täitmisel osaleb mitmeid erinevate rollide täitjaid, kellel tuleb oma vastutuste täitmiseks teha mitmesuguseid praktilisi ülesandeid. Käesolev juhis pakub praktilisi juhtnööre nende ülesannete täitmiseks.

[1] vt. EY, Andmehalduse raamistik (2020)

[2] Vt. EY, Andmekirjelduse juhis (2020)

1.1 Andmekvaliteedi juhise eesmärk

Juhis on loodud selleks, et asutustel ja organisatsioonidel oleks andmekvaliteedi reeglite haldamiseks, mõõtmiseks ja kvaliteedi parendamise rakendamiseks olemas praktilised juhtnöörid. Juhise järgimine aitab kaasa andmehalduse raamistiku terviklikule rakendamisele organisatsioonis.

Juhises käsitletav andmekvaliteedi mõõtmine on asutuse keskne ning riiklikul tasemel andmekogude võrdlust ei rakendata. Asutused on autonoomsed dimensioonide mõõtmiseks kasutatavate indikaatorite ja mõõdikute valimisel. Mõõtmisega alustamiseks pakub käesolev juhis nii teoreetilist tausta kui ka praktilisi näiteid.

1.2 Sihtrühmad

Andmaks ülevaadet juhise sihtrühmadest on esmalt toodud taustinformatsioon andmekvaliteedi raamistikus määratletud rollide, nende andmekvaliteediga seotud vastutuste ning tegevuste kohta milles nad osalevad. (Rollide kirjeldused koos täieliku vastutuste loendiga on toodud andmehalduse raamistikus.) Seejärel on andmehalduse raamistikus defineeritud rollidest ja nende vastutustes lähtuvalt kirjeldatud käesoleva juhise sihtrühmad.

1.2.1 Andmekvaliteediga seotud rollid andmehalduse raamistikust

Andmehalduse sponsor on asutuse juhtkonna liige, kes vastutab asutustes andmekvaliteedi parendamise propageerimise eest. Lisaks osaleb ta andmekvaliteedi projektide järelevalve teostamises.

Andmehalduse juht on andmehaldusorganisatsiooni juht ja asutuse või valdkonnaüleste tegevuste koordinaator. Tema vastutuseks on andmekvaliteedi aruannete ja mõõdikute väljatöötamine ja jälgimine, andmekvaliteedi parendamise tasuvusanalüüside koostamine ning andmekvaliteedi projektide portfelli haldamine ning projektide tellimine ja järelevalve.

Andmeomanik on osakonna / valdkonna / teenuste juht või peakasutaja, kes on protsesside omanik, kindla huvigrupi esindaja andmekvaliteedi nõuete esitamisel ehk andmete tegelik omanik. Tema vastutuseks on andmekvaliteedi reeglite seadmine vastavalt reeglistikule, huvigruppide ja kasutajate andmekvaliteedi probleemide ja nõuete registreerimine, ootuste juhtimine ning andmekvaliteedi parendamise protsesside ja projektide algatamine ning järjestamine. Lisaks osaleb ta andmekvaliteedi reeglitele mõõdikute määramisel.

Andmehaldur (andmestikud) on andmete ekspert, kes omab parimat teadmist valdkonna andmestikest ja lähtesüsteemide andmetest, ühiskasutatavatest põhiandmetest ning teenuste ja mõõdikutega seotud andmetest. Tema vastutuseks on andmekvaliteedi reeglitele mõõdikute määramine, mõõtetulemuste kogumine ja raporteerimine ning andmekvaliteedi probleemide põhjuste väljaselgitamine ja sellest tegevusele tekkiva mõju hindamine. Lisaks osaleb ta andmekvaliteedi reeglite kirjeldamisel toetades selles tegevuses andmeomanikke.

Metaandmete analüütik on IT- ja metaandmete süsteemide tundja, kes omab ülevaadet kindla süsteemiga seotud andmetest ja kvaliteedi mõõtmise vahenditest. Tema vastutuseks on nõuete ja andmekvaliteedi reeglite IT süsteemidesse juurutamise nõustamine ning regulaarsete ja ühekordsete andmepäringute teostamine andmekvaliteedi probleemide põhjuste välja selgitamiseks. Lisaks osaleb ta andmekvaliteedi mõõdikute väljatöötamisel nõustajana.

Andmehaldur (andmed) tegeleb andmete füüsilise sisestamise ja korrigeerimisega (eelduseks toodangusüsteemide kõrgema taseme kasutajaõigused). Tema vastutuseks on andmekvaliteedi mõõdikute jälgimine. Lisaks osaleb ta andmekvaliteedi mõõdikute väljatöötamisel nõustajana.

1.2.2 Juhise sihtrühmad

Juhis on eelkõige suunatud andmehalduri (andmestikud) rollis olevatele asutuste ja organisatsioonide töötajatele, kellele käesolev juhis pakub juhtnööre kõigi temaga seotud andmekvaliteeti puudutavate ülesannete täitmiseks: andmeomanike toetamiseks andmekvaliteedi reeglite kirjeldamisel rakendades profileerimist, andmekvaliteedi mõõtmiseks, andmekvaliteedi reeglitele mõõdikute määramiseks, mõõtetulemuste kogumiseks ja raporteerimiseks, andmekvaliteedi probleemide põhjuste väljaselgitamiseks ja kvaliteediprobleemide mõju hindamiseks.

Andmehalduse sponsor saab antud juhisest vajalikku taustinformatsiooni andmekvaliteedi parendamise propageerimiseks ning andmekvaliteedi projektide järelevalves osalemiseks. Andmehalduse juhile pakub käesolev juhis juhiseid andmekvaliteedi aruannete ja mõõdikute väljatöötamiseks ning andmekvaliteedi parendamise tasuvusanalüüside koostamiseks. Andmeomanik saab juhendist tuge andmekvaliteedi reeglite seadmiseks, andmekvaliteedi reeglitele mõõdikutele seadmisel osalemiseks ning konteksti ja üldist taustinformatsiooni oma ülejäänud andmekvaliteeti puudutava vastutuste täitmiseks. Metaandmete analüütikule pakub juhis teadmisi kvaliteedi mõõtmise vahendistest ning aitab tal täita oma andmekvaliteedi reeglite ja andmekvaliteedi probleemide põhjuste analüüsiga seotud vastutusi. Lisaks pakub juhis talle andmekvaliteedi mõõdikute väljatöötamisel nõustajana osalemiseks vajalikku taustinformatsiooni. Andmehaldurile (andmed) pakub juhis mõõdikute jälgimiseks ja andmekvaliteedi mõõdikute väljatöötamisel nõustajana osalemiseks vajalikku taustinformatsiooni.

1.3 Juhise ulatus

Andmekvaliteedi juhis annab esmalt lühiülevaate andmekvaliteedi eesmärgistamisest. Seejärel on toodud juhised peamiste andmehalduse raamistikus toodud ning praktilisi oskusi nõudvate andmekvaliteediga seotud tegevuste teostamiseks. Alljärgnevalt (Joonis 1) on esitatud andmehalduse raamistikus toodud andmekvaliteedi haldamise üldine protsess.

Joonis 1. Andmekvaliteedi haldamine (vt ka andmehalduse raamistik, sektsioon 4.1.6)

Juhis kirjeldab lahti andmekvaliteedi reeglite kirjeldamiseks tehtavad tegevused ning pakub detailseid juhiseid andmekvaliteedi mõõtmise teostamiseks. Arvestades andmekvaliteedi mõõtmise keerukust ja alamtegevuste rohkust on oluline rõhk pandud just selle tegevuse juhendamisele. Andmekvaliteedi haldamise protsessi osaks olevast andmekvaliteedi probleemide lahendamise alamprotsessist on kirjeldatud kaks andmehalduri (andmestikud) peamist eriteadmisi nõudvat tegevust: andmekvaliteedi probleemide põhjuste analüüs ja kvaliteediprobleemide ärilise mõju hindamine. Eelnimetatud tegevuste käigus tekib hulk andmekvaliteedi reegleid, mis on pidevas muutumises. Seega võib andmekvaliteedi reeglite haldamine muutuda kiiresti keerukaks ning tekitada segadust. Probleemi lahendamiseks on juhendis esitatud juhised andmekvaliteedi reeglite haldamiseks.

Viimasena esitatakse praktilised näited eelnevalt lahti seletatud tegevuste praktiliseks rakendamiseks kasutades konkreetseid tööriistu. Juhendis on toodud näited profileerimise, andmekvaliteedi mõõtmise, andmekvaliteedi juhtimislaua koostamise ja andmekvaliteedi reeglite haldamise praktiliseks rakendamiseks.

Andmekvaliteedi juhise koostamisel on lähtutud nii DAMA-DMBOK2 andmehalduse mudelist[1], andmekvaliteedi protsessi[2] ning mõõtmist[3] käsitlevast kirjandusest kui ka andmekvaliteedi probleemide taksonoomiast[4].

[1] https://dama.org/sites/default/files/download/DAMA-DMBOK2-Framework-V2-20140317-FINAL.pdf

[2] McGilvray, Danette. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information (Tm). 2008.

[3] Batini, Carlo, and Monica Scannapieco. Data and Information Quality. 2016.

[4] Oliveira, Paulo, Fátima Rodrigues, and Pedro Rangel Henriques. “A formal definition of data quality problems.” ICIQ. 2005. http://mitiq.mit.edu/ICIQ/Documents/IQ%20Conference%202005/Papers/AFormalDefinitionofDQProblems.pdf

1.4 Andmekvaliteedi mudeli valik

Andmete kõrge kvaliteedi tähtsustamine teoreetikute ja praktikute poolt ning kasu, mida sellest on saadud, on aidanud kaasa andmekvaliteedi raamistike paljususe tekkele. Lähtuvalt valdkondlikest iseärasustest, infosüsteemide eripäradest ja andmete kontekstist on loodud kümneid erinevaid andmekvaliteedi raamistikke. Eesti andmekvaliteedi juhises on võetud kasutusele mudel, milles on viis dimensiooni: täielikkus, ajakohasus, õigsus, reeglipärasus ja ühekordsus. Nimetatutest kolm esimest on eri raamistikes enimlevinud dimensioonid[1]. Reeglipärasus võeti mudelisse, sest see võimaldab jälgida klassifikaatorite ja infosüsteemide sisemiste loendite kasutamist ning põhiandmete kasutamist. Et asutuse sees ei oleks dublitseerivaid andmeid, siis on raamistikus eraldi dimensioonina välja toodud ühekordsus.

Andmekvaliteedi mudelis on neid dimensioone kasutatud  andmekvaliteedi indikaatorite, probleemide ja reeglite grupeerimiseks. See tagab andmekvaliteedi süsteemse käsitlemise ja lihtsustab andmekvaliteedi haldamist, sh andmekvaliteedi reeglite väljatöötamist. Andmekvaliteedi reeglite grupeerimiseks kasutame täiendavalt Oliveira jt[2] poolt välja töötatud andmekvaliteedi probleemide taksonoomiat. Erinevalt teistest andmekvaliteedi probleemide raamistikest põhineb selles raamistikus toodud andmekvaliteedi probleemide taksonoomia laiapõhjalisel juhtumiuuringul, on formaliseeritud ning toetub samade autorite varasemale tööle[3], mis pakub lisaks konkreetseid algoritme andmekvaliteedi probleemide tuvastamiseks ja klassifitseerimiseks. Andmekvaliteedi reeglite kirjeldamisel lähtume me tuvastatud andmekvaliteedi probleemidest ja juhtimisel andmekvaliteedi dimensioonidega seotud indikaatoritest. Seosed dimensioonide ja reeglite vahel tekivad läbi reeglite grupeerimise andmekvaliteedi probleemide alusel. Selline probleemipõhine liigitusskeem lihtsustab andmekvaliteedi reeglite jaotamist dimensioonidesse.

[1] C. Cichy and S. Rass, “An Overview of Data Quality Frameworks,” in IEEE Access, vol. 7, pp. 24634-24648, 2019, doi: 10.1109/ACCESS.2019.2899751.

[2] Oliveira, Paulo, Fátima Rodrigues, and Pedro Rangel Henriques. “A formal definition of data quality problems.” ICIQ. 2005. http://mitiq.mit.edu/ICIQ/Documents/IQ%20Conference%202005/Papers/AFormalDefinitionofDQProblems.pdf

[3] Oliveira Paulo, Fátima Rodrigues, Pedro Henriques, and Helena Galhardas. “A taxonomy of data quality problems.” In 2nd Int. Workshop on Data and Information Quality, pp. 219-233. 2005.

1.6 Andmekvaliteedi varasemad käsitlused

2016. aastal valmis varasem juhend pealkirjaga „Andmekvaliteedi tagamise juhend andmekogu omanikele“. Nimetatud juhend on suunatud eelkõige andmeomanikele ning pakub neile head materjali andmekvaliteediga tegelemiseks. Käesolev juhis ei asenda varasemas juhendis toodut, vaid täiendab seda. Erinevalt varasemast juhendist on antud juhis suunatud eelkõige andmehalduritele (andmestikud), kuid pakub samas praktilisi oskusi ja taustinformatsiooni nii andeomanikule kui ka teistele andmekvaliteedi tagamisel ülesandeid omavatele rollidele.

Varasem juhend pakub välja andmekvaliteedi juhtimise raamistiku andmekvaliteedi pidevaks parendamiseks ning seeläbi küpsustaseme tõstmiseks. Välja pakutud raamistik põhineb pideva parendamise tsüklil ehk Demingi rattal ning sisaldab järgmisi tegevusi: hindamine, planeerimine, teostamine, kontrollimine ja korrigeerimine. Kasutatud juhtimismeetod pakub üldisel tasemel andmekvaliteedi juhtimistegevuste kirjeldust. Täpsemat ülevaadet andmehalduse protsessidest, sh ka andmekvaliteedi protsessidest, pakub Eesti andmehalduse raamistik.  Lisaks andmekvaliteedi juhtimise raamistikule on varasemas juhendis toodud ülevaade andmekvaliteedi küpsusmudelist ning juhised selle rakendamiseks. Neid käesolev juhis ei käsitle.

Viimaks annab varasem juhend ülevaate üheksast andmekvaliteedi tunnusest (ehk dimensioonist). Varasemas juhises on käsitletavaid dimensioone üheksa: õigsus, täielikkus, kooskõla, usaldusväärsus, ajakohasus, reeglipärasus, konfidentsiaalsus, ühekordsus ja mitteliiasus. Iga käsitletud dimensiooni kohta on esitatud määratlus, dimensiooniga seotud kvaliteediprobleemide näited, ülevaade  dimensiooni kvaliteedinõuete kohta käivatest õigusaktidest, lühikene kirjeldus meetoditest, mis aitavad tagada andmekvaliteedi vastavust nõuetele antud dimensiooni osas ning viimaks kontrollküsimused, mille eesmärgiks oli võimaldada andmeomanikul veenduda, et ta oleks arvestanud erinevate võimalike nõuete allikatega ja võimalike dimensiooni nõuetele vastavuse tagamise meetmetega.

Käesolev juhis vaatleb andmekvaliteeti Eesti andmehalduse raamistiku kontekstis ning kirjeldab lahti andmehalduse raamistikus toodud andmekvaliteediga seotud peamised tegevused: 4.1.5 Kvaliteedireeglite haldamine (5), 4.1.6 Andmekvaliteedi haldamine (6); 4.1.7 Andmekvaliteedi mõõtmine (7) ja 4.1.8 Andmekvaliteedi probleemide lahendamine (8). Kui varasem juhend käsitles üheksat dimensiooni, siis käesolevas juhises kasutusele võetud mudelis on dimensioone viis: õigsus, täielikkus, ajakohasus, reeglipärasus ja ühekordsus. Erinevalt varasemast juhisest on käesolevas juhises toodud terviklikud juhtnöörid andmekvaliteedi dimensioonidest rakendamise võtmes olulisemate mõõtmiseks.

Kas see artikkel aitas sind? Jah Ei

Abi saamiseks konktakteeru meiega.