Datakvalitet: Sådan sikrer du pålidelige data i dit BI-setup

Datakvalitet er graden af hvorvidt data opfylder kravene til det formål de skal bruges til. I en business intelligence-kontekst betyder datakvalitet forskellen mellem dashboards der driver præcise beslutninger og rapporter der vildleder organisationen. Gartner estimerer at dårlig datakvalitet koster organisationer gennemsnitligt 12,9 millioner dollars årligt i tabte ressourcer og fejlbeslutninger.

For danske virksomheder der investerer i Power BI, Tableau eller andre BI-platforme er datakvalitet den faktor der afgør om investeringen skaber værdi. Et dashboard kan være teknisk perfekt, med elegante visualiseringer og hurtige forespørgsler, men hvis de underliggende data er ufuldstændige, forældede eller inkonsistente, er resultaterne værdiløse. Som det hedder i branchen: garbage in, garbage out.

Datakvalitet måles traditionelt på seks dimensioner. Nøjagtighed beskriver om dataværdierne korrekt afspejler virkeligheden. En kundeadresse der peger på den rigtige lokation er nøjagtig. Et telefonnummer med et ciffer for meget er unøjagtigt. Fuldstændighed måler om alle forventede datafelter er udfyldt. Et kundeprofil uden postnummer er ufuldstændigt. Konsistens sikrer at den samme information repræsenteres ens på tværs af systemer. Hvis CRM-systemet har kunden som "Acme A/S" og ERP-systemet har "ACME ApS", er der en konsistensfejl.

Aktualitet beskriver om data er tilstrækkeligt opdaterede til det aktuelle formål. Lagerbeholdning der opdateres dagligt er tilstrækkeligt aktuelt til en ugentlig rapport, men ikke til et real-time ordresystem. Validitet måler om data overholder de definerede forretningsregler og formater. Et dansk CVR-nummer skal bestå af præcis otte cifre. En ordredato kan ikke ligge i fremtiden. Unikhed sikrer at hvert dataobjekt kun repræsenteres én gang. Kundedubletter, hvor den samme person optræder flere gange med variationer i stavemåde eller adresse, er et af de mest udbredte datakvalitetsproblemer.

Måling af datakvalitet kræver konkrete metrikker for hvert kritisk datasæt. En datakvalitetsrapport kan indeholde procent af kundepostnumre der matcher DAR (Danmarks Adresseregister), andel af produkter med komplet stamdata, gennemsnitlig forsinkelse på ordredata fra kildesystem til data warehouse, og antal kundedubletter per måned. Disse metrikker trackes over tid og vises i et dedikeret datakvalitetsdashboard der er synligt for både analytikere og dataejere.

Automatiseret datavalidering er det vigtigste tekniske værktøj til at opretholde datakvalitet. I ETL-pipelines implementeres kvalitetskontroller på hvert trin. Rækkeantal sammenlignes mellem kilde og destination for at fange tabte rækker. Forretningsregler validerer at værdier ligger inden for acceptable intervaller. Referenceintegritet sikrer at fremmednøgler peger på eksisterende poster. Værktøjer som dbt (data build tool) har gjort det nemt at definere datakvalitetstests direkte i transformationslagret med simple YAML-konfigurationer.

Data profiling er processen med at undersøge et datasæts karakteristika: fordelinger, tomme felter, outliers og mønstre. Før du bygger et dashboard, bør du profilere de underliggende data for at forstå deres kvalitet. Power BI's Power Query har indbygget data profiling der viser kolonnekvalitet, kolonnedistribution og kolonneprofil. Python-biblioteket pandas-profiling genererer omfattende profileringsrapporter med få linjer kode.

Rodårsagerne til dårlig datakvalitet er ofte menneskelige og organisatoriske. Manuel datainput uden validering er den mest almindelige kilde til fejl. En sælger der taster kundedata ind i CRM uden obligatoriske felter eller formatvalidering introducerer fejl ved kilden. Systemintegrationer uden transformationslogik overfører fejl fra et system til et andet. Manglende datadefinitioner fører til at forskellige afdelinger fortolker de samme felter forskelligt.

Data cleansing, eller datarensning, er processen med at identificere og rette fejl i eksisterende data. Teknikker inkluderer deduplicering der sammenligner poster med fuzzy matching for at finde og sammenflette dubletter, standardisering der ensretter formater for adresser, navne og telefonnumre, og berigelse der tilføjer manglende data fra eksterne kilder som CVR-registret, DAR eller tredjepartsdata.

For danske virksomheder er der specifikke datakvalitetsudfordringer. Danske adresser skal matche det officielle adresseregister. CVR-numre skal valideres mod Virk.dk. Personnumre kræver særlig håndtering under GDPR. Danske tegn som æ, ø og å giver udfordringer i systemer der ikke understøtter UTF-8. Prisdata skal håndtere dansk talformat med komma som decimalseparator.

En datakvalitetsstrategi starter med at identificere de mest forretningskritiske datasæt. For de fleste danske virksomheder er det kundedata, produktstamdata, ordredata og finansdata. For hvert datasæt defineres kvalitetskrav på de seks dimensioner, ejerskab tildeles, og automatiserede kontroller implementeres. Kvalitetsmetrikker rapporteres regelmæssigt til dataejere og ledelse.

Kulturelt kræver datakvalitet at organisationen anerkender data som et fælles aktiv. Datakvalitet er ikke IT-afdelingens ansvar alene. Den afdeling der opretter data er ansvarlig for kvaliteten ved kilden. Den afdeling der bruger data er ansvarlig for at rapportere kvalitetsproblemer. Og ledelsen er ansvarlig for at prioritere og finansiere datakvalitetsinitiativer.

Investering i datakvalitet betaler sig typisk hurtigt. En dansk e-commerce virksomhed der reducerer kundedubletter fra fem til under én procent, sparer ikke bare på marketingudgifter til dobbeltforsendelser og duplikerede kampagner. Den får også et præcist billede af sin kundebase, der muliggør bedre segmentering, mere præcis churn-analyse og mere pålidelige omsætningsprognoser.

Datakvalitet: Sådan sikrer du pålidelige data i dit BI-setup

Andre artikler