In ons persoonlijk leven zijn we bezorgd oa. om onze gezondheid, ons gezin en hoe we de dingen thuis gemanaged krijgen. Op het werk daarentegen, daar zouden we bezorgd moeten zijn om de data. Data is de bron waarop organisaties beslissingen nemen. Volledige en betrouwbare informatie is cruciaal om deze beslissingen te onderbouwen. In dit artikel lees je hoe je je data beter kan organiseren en de kwaliteit van je data kan verhogen.
7 stappen naar betere data
Waarom zijn data zo belangrijk?
Zonder goede informatie als fundament is het moeilijk om betrouwbare inzichten te generen en de juiste beslissingen te nemen. Masterdata zijn de bron van informatie die essentieel is voor je organisatie. Deze gegevens ondersteunen belangrijke bedrijfsprocessen en -transacties. Als deze gegevens niet in orde zijn, ontstaan er compliance- en performanceproblemen. Wanneer je data bij de bron kunt optimaliseren, voorkom je veel herstel- en reparatiewerk verderop in de keten.
Het is dus zaak om je data op orde te hebben alvorens je analyses gaat doen op basis van die data. Data bepalen de waarheid en analytics creëren betekenis. Vergelijk het met het maken van een goed gerecht; zonder de beste ingrediënten zul je nooit op sterrenniveau koken, ook al is het nóg zo’n goed recept.
Betrek relevante stakeholders die je helpen inzicht te krijgen in je huidige data. Dit kunnen productexperts zijn, maar ook medewerkers van marketing, vertaalbureaus, designers en R&D. In een online vergadering geven zij je een eerste indrukvan de datakwaliteit en prioriteiten:
- Welke informatie gebruiken we om besluiten te nemen of kritieke processen te faciliteren?
- Hoe worden deze data verzameld en opgeslagen?
- Waar in de organisatie ondervinden we de meeste issues met onze data?
- Hoe valideren, testen en monitoren we momenteel of deze gegevens kloppen?
- Wie is verantwoordelijk voor de datakwaliteit?
- Zijn er mogelijkheden om bepaalde datavelden te standaardiseren? Bijvoorbeeld door een vaste ‘list of value’ in plaats van een ‘open’ veld?
Er zijn altijd bedrijfsprocessen die niet helemaal lekker lopen. Vaak zijn onvolledige data daar een reden voor. Bekijk eens in jouw organisatie waar het pijn doet. Welke velden in je systemen kun je eenvoudig standaardiseren, zodat je foutieve data voorkomt? En welke velden ontbreken die je wel nodig hebt? Maak dit proces niet te groot en ingewikkeld. Selecteer een beperkt aantal datavelden die je optimaliseert. Vermijd in deze fase velden die in meerdere systemen worden gebruikt en waarvan de impact bij wijziging onduidelijk is.
Waar komen je data vandaan? Soms zijn data lokaal beschikbaar in offline–documenten. Een ander deel van de data komt uit publieke bronnen. Betrek ook je leveranciers. Zij hebben vaak voor jou relevante gegevens in huis. Kun je deze informatie verkrijgen via datafiles of een datapool? En als je intern met meerdere systemen werkt, bekijk dan of data (deels) al beschikbaar zijn op andere plekken in de organisatie.
Jouw datakwaliteit wordt bepaald door gegevens die compleet, traceerbaar en uniform zijn. Neem de volgende aspecten mee om jouw data te beoordelen:
- Key Performance Indicators (KPI’s) met betrekking tot data. Bijvoorbeeld: bepaalde velden mogen nooit leeg zijn en een specifiek attribuut bevat alleen nummers of mag slechts één keer voorkomen in het systeem.
- Volledigheid van de data. Zijn alle relevante velden compleet en juist gevuld? Is de informatie beschikbaar in verschillende talen mocht dat nodig zijn?
- Uniformiteit van de data door het ICT-landschap heen. Het kan zijn dat een dataveld of –attribuut in meerdere systemen bestaat. Deze wordt op één centrale plaats gecreëerd: in het bronsysteem. Heeft het veld in de omringende systemen dezelfde betekenis?
- Traceerbaarheid van de data. Waar komen je gegevens vandaan?
- Tijdigheid van de data. Hoe snel kun je informatie updaten en wijzigen? Hoelang duurt het om een artikel toe te voegen in het systeem of te publiceren op de website?
- Assets zijn data! Ook voor je afbeeldingen en documenten gelden bovenstaande punten.
Stel een korte handleiding op voor elk dataveld met de geldende spelregels. Wat is het doel van dit veld? Wie is de eigenaar? Welke waarden mogen worden ingevuld: numeriek, tekst of een lijst met vooraf gedefinieerde waarden? Denk na over welke processen nodig zijn om de kwaliteit van deze velden te borgen. En vergeet je assets niet! Documenten en afbeeldingen hebben vaak andere standaarden en spelregels nodig dan productinformatie.
Maak een export van je data. Als het gaat om grotere datasets, verdeel ze dan in meerdere batches om het overzichtelijk te houden. Er zijn allerlei tools beschikbaar om je data te valideren. Zelfs in Excel kun je verschillende analyses doen, bijvoorbeeld lege velden checken, dubbele waarden ontdekken, en fouten opsporen met conditional formatting, het gebruik van verticaal zoeken of fuzzy logic. Analyseer beeldmateriaal en documenten die bij de producten horen. Hebben ze het goede formaat? Komen de gegevens in de documenten overeen met de data die rechtstreeks aan je product gekoppeld zijn? Verschillende analyses helpen je inzichten verschaffen om te bepalen of je data correct zijn.
Belangrijk in deze stap: corrigeer je data bij de bron. Als je in je initiële analyse ziet dat er bij de bron structureel foutieve data worden gecreëerd, los dit dan eerst op. Anders is het dweilen met de kraan open. Verder:
- Detecteer en ontdubbel records. Denk aan een leverancier of klant die onder verschillende namen of met een iets andere schrijfwijze in het systeem staat.
- Standaardiseer. Verander ‘Blauw’, ‘BLAUW’ en ‘kleur: blauw’ naar ‘blauw’.
- Identificeer lege of default data. Zoals: ‘1’, ‘.’, ‘/’, ‘null’ en ‘ ‘.
- Vul ontbrekende informatie aan. Verifieer de datavelden in meerdere systemen en combineer verschillende bronnen om tot één goede dataset te komen.
- Zorg dat de data in de verschillende talen zijn ingevuld. Begin met de talen die je intern kunt onderhouden.