1. Avaleht
  2. Teadmusbaas
  3. Andmekvaliteet
  4. 3. Rakendamise näited

3. Rakendamise näited

Antud sektsioonis on kirjeldatud profileerimise, andmekvaliteedi mõõtmise, andmekvaliteedi juhtimislaua loomise ja reeglite haldamise rakenduslikud näited. Näited on esitatud programmeerimiskeeles R[1], mida kasutatakse laialdaselt andmete analüüsiks. Näidisalgoritmide käivitamise eelduseks on, et arvutisse on paigaldatud programmeerimiskeele R interpretaator[2] ning arendustööriist RStudio[3].

Lisaks kasutavad järgnevalt esitatud andmekvaliteedi mõõtmise näited Mark van der Loo ja Edwin de Jonge poolt arendatud validate[4] paketti. Validate pakett lihtsustab R keeles andmete kvaliteedi mõõtmist ning andmekvaliteedi reeglite haldamist.

Pakett võimaldab:

  • testida andmekomplekti vastu eeldefineeritud reegleid, kas siis andmekomplekti sees või nende üleselt;
  • importida ja eksportida defineeritud andmekvaliteedi reegleid;
  • uurida ja visualiseerida andmekvaliteedi tulemusi;
  • teostada lihtsat reeglite haldust;
  • defineerida ja hallata andmete kvaliteedi indikaatoreid andmetest eraldiseisvalt.

Paketi peamised objektid:

  • validator – objekt, mis esitab hulka reegleid, millele andmed peavad vastama
  • indicator – objekt, mis esitab hulka numbrilisi kvaliteedi indikaatoreid
  • confrontation – objekt, mis esitab andmete andmekvaliteedi reeglite või indikaatoritega vastandamise tulemusi

Paketis on ka meetod confront, mis rakendab andmetele andmekvaliteedi reegleid või andmekvaliteedi indikaatoreid.

Lisaks validate paketile kasutatakse rakenduslikes näidetes paketti dlookr[5] andmete profileerimiseks ning pakette data.table[6], stringr[7] ja tidyr[8] andmete töötluse lihtsustamiseks.

[1] https://www.r-project.org/

[2] https://cran.r-project.org/bin/windows/base/

[3] https://rstudio.com/products/rstudio/download/

[4] https://cran.r-project.org/web/packages/validate/vignettes/introduction.html

[5] https://cran.r-project.org/web/packages/dlookr/

[6] https://cran.r-project.org/web/packages/data.table/

[7] https://cran.r-project.org/web/packages/stringr/

[8] https://cran.r-project.org/web/packages/tidyr/

3.1 Pakettide paigaldamine ja näidisandmed

3.2 Andmete profileerimise rakendamise näide

3.3 Andmekvaliteedi mõõtmise näidisjuhtumid

3.4 Andmekvaliteedi juhtimislaua loomine

Kas see artikkel aitas sind? Jah Ei

Abi saamiseks konktakteeru meiega.