Kvalita dat
Termín kvalita dat (též jakost dat nebo údajů) se týká stavu kvalitativních nebo kvantitativních aspektů poskytované informace. Data se obecně považují za kvalitní, pokud jsou vhodná k zamýšlené činnosti, rozhodování a plánování.[1][2] Kromě toho jsou data považována za vysoce kvalitní, pokud správně zobrazují konstrukt skutečného světa, ke kterému se vztahují. S rostoucím počtem zdrojů dat se navíc zvyšuje význam vnitřní konzistence dat, bez ohledu na vhodnost použití pro jakýkoli konkrétní vnější účel. Názory lidí na kvalitu dat se mohou lišit, dokonce i v případě, že se diskutuje o stejné sadě dat použitých pro stejný účel. V takovém případě se k dohodě o definici a standardech kvality dat používá schválený systém řízení dat (Data Governance). Pro zajištění potřebné jakosti může být vyžadováno čištění dat (anglicky data cleansing) včetně standardizace.[3]
Další definice
Stav úplnosti, shody, konzistence, aktuálnosti, unikátnosti/duplikace, integrity a přesnosti, díky nimž jsou data vhodná pro konkrétní použití.[4]
Součet znaků a charakteristik dat, které mají vliv na jejich schopnost uspokojit daný účel; míra stupně dokonalosti pro faktory související s daty.[5]
Kompletní, na standardech založená, konzistentní, přesná a časově označená data.[6]
Podle ISO 9000:2015 kvalita dat může být definována jako míra, do které soubor charakteristik údajů splňuje požadavky. Příklady charakteristik jsou: úplnost, platnost, přesnost, konzistence, dostupnost a aktuálnost. Požadavky jsou definovány jako potřeba nebo očekávání, které jsou uvedeny, obecně předpokládané nebo povinné. Existují však i další standardy týkající se kvality dat, například ISO 25012 definuje 15 kvalitativních dimenzí dat. ISO 8000 je mezinárodní standard pro kvalitu dat.
Řízení firemních dat (Data governance)
Řada dodavatelů software nabízí nástroje pro analýzu a opravu dat nízké kvality in situ, poskytovatelé služeb mohou data čistit na základě smlouvy a poradci radí při úpravách procesů nebo systémů tak, aby se v první řadě vyhnuli problémům s kvalitou dat.
Problém nabyl takové důležitosti, že společnosti ustavují týmy pro správu údajů, jejichž jedinou úlohou ve firmě je zodpovědnost za kvalitu dat.
Většina nástrojů pro kvalitu dat nabízí řadu nástrojů pro vylepšení dat, která mohou zahrnovat následující funkce:
- Profilování dat - prvotní vyhodnocení dat k pochopení jeho současného stavu, často včetně distribuce hodnot
- Standardizace dat - modul obchodních pravidel, který zajišťuje, že data odpovídají standardům
- Geokódování - pro údaje o jméně a adrese. Opravuje data podle geografických norem.
- Shoda nebo odkazy (Matching, Linking) - způsoby, jak porovnat data tak, aby byly srovnatelné podobné, ale mírně odlišné zdvojené záznamy. Při hledání shody v datech lze použít fuzzy logiku. Systémy umí odhalit překlepy ve jméně, zjistit ze zadaných adres počet domácností, nebo například najít spojení mezi partnery bydlícími na stejné adrese.
- Monitorování - sledování kvality dat v čase a vykazování odchylek v kvalitě údajů.
- Synchronizace typu dávka, reálný čas - Jakmile jsou data vyčištěna (dávkově), chtějí společnosti často integrovat podobné procesy do firemních aplikací, aby data udržovaly čistá.
Zajištění kvality
Zajištění kvality údajů (QA) je proces profilování dat za účelem odhalení nesrovnalostí a dalších anomálií v datech a provádění činností patřících do oblasti čištění dat, například odstranění extrémních odchylek, přidání interpolací a podobně.[7]
Kontrola kvality
Kontrola kvality dat (QC) je proces řídící využití dat pro určenou aplikaci nebo proces. Tato činnost se provádí před i po procesu zajištění kvality dat, který spočívá ve zjištění nekonzistence a opravě dat. Kontrola kvality používá informace z procesu zajištění kvality k rozhodnutí použít data pro analýzu (viz Analýza dat) nebo v aplikaci nebo obchodním procesu.
Obecný příklad: pokud proces Kontrola kvality zjistí, že data obsahují příliš mnoho chyb nebo nesrovnalostí, zabrání tomu, aby byla data použita pro zamýšlený proces, který by mohl způsobit selhání. Konkrétní aplikace: poskytnutí neplatných měření z několika senzorů do funkce automatického pilota v letadle by mohlo způsobit jeho pád.
Optimální využití kvality dat
Kvalita dat (DQ) je specifická oblast vyžadovaná pro integritu správy dat tím, že pokrývá mezery v problémech s daty. To je jedna z klíčových funkcí, které napomáhají správě dat monitorováním dat a nalézají výjimky neobjevené současnými operacemi správy dat.
Kontroly kvality dat jsou však nadbytečné, pokud obchodní logika pokrývá stejnou funkčnost a splňuje stejný účel jako kvalita dat. Následuje několik oblastí datových toků, které mohou vyžadovat stálé kontroly kvality dat:
- Kontrolu úplnosti a přesnosti u všech údajů lze provádět v bodě vstupu pro každý povinný atribut z každého zdrojového systému.
- Všechna data, která mají atributy odkazující na referenční data v organizaci, mohou být ověřena na základě sady dobře definovaných platných hodnot referenčních dat, aby se pomocí kontroly kvality dat platnosti objevily nové nebo rozporné hodnoty. Výsledky mohou být použity k aktualizaci referenčních dat spravovaných v rámci správy hlavních dat (MDM).
- Všechny datové sloupce, které odkazují na kmenová (master) data, mohou být validovány kontrolou jejich konzistence. Kontrola kvality dat prováděná na datech v bodě vstupu objevuje nová data pro proces řízení kmenových dat, ale kontrola kvality dat prováděná až po vstupu do cílového umístění odhaluje selhání (ne výjimky) konzistence.[8]
Reference
V tomto článku byl použit překlad textu z článku Data quality na anglické Wikipedii.
- ↑ REDMAN, Thomas C. Řízeno daty: Profitujte z vašeho nejdůležitějšího obchodního majetku. [s.l.]: Harvard Business Press, 30 December 2013. Dostupné online. ISBN 978-1-4221-6364-1. (anglicky)
- ↑ FADAHUNSI, Kayode Philip; AKINLUA, James Tosin; O’CONNOR, Siobhan; WARK, Petra A; GALLAGHER, Joseph; CARROLL, Christopher; MAJEED, Azeem. Protokol pro systematické přezkoumání a kvalitativní syntézu rámců kvality informací v eHealth. BMJ Open. March 2019, s. e024722. ISSN 2044-6055. DOI 10.1136/bmjopen-2018-024722. PMID 30842114. (anglicky)
- ↑ Co je datové čištění (čištění dat)? - Definice z WhatIs.com [online]. Dostupné online. (anglicky)
- ↑ Slovníček, Vláda Britské Kolumbie [online]. [cit. 2019-10-05]. Dostupné v archivu pořízeném dne 2007-04-09. (anglicky)
- ↑ Data vzorků vody v referenční kvalitě: Poznámky k pořízení, vedení záznamů a vyhodnocení
- ↑ ANONYMOUS. Kvalita dat [online]. 23 December 2014. Dostupné online. (anglicky)
- ↑ Co je Data Cleansing? - Kvalita experimentálních dat [online]. 13 February 2015. Dostupné online. (anglicky)
- ↑ HUSER, Vojtech; DEFALCO, Frank J; SCHUEMIE, Martijn; RYAN, Patrick B; SHANG, Ning; VELEZ, Mark; PARK, Rae Woong. Multisite hodnocení nástroje kvality dat pro klinický datový soubor na úrovni pacienta. EGEMs. 30 November 2016, s. 24. DOI 10.13063/2327-9214.1239. PMID 28154833. (anglicky)