All about data and innovation
© S10 group 2020
+31 (0) 252 225 466
Secured by Sectigo
Maak hoge-kwaliteitsdata

Werk met 18 verschillende datakwaliteit metrieken

Data curatie & normalisatie van de data bronnen
Datafabriek data iPaaS en DaaS logo

Data quality metrics

Data wordt gezien als de nieuwe olie, maar data brengt wel veel uitdagingen met zich mee alvorens controle erover wordt verkregen en daadwerkelijk informatie uit de waardevolle data gehaald kan worden: data kan ongestructureerd zijn data kan overal verspreid opgeslagen liggen waaronder in meerdere silo's relevante en recente data is moeilijk terug te vinden data kan door entiteiten in andere landen, op verschillende wijze verwerkt worden records zijn onvolledig of ontbreken zelfs Dit zijn slechts enkele van de data-uitdagingen waarmee upstream-users worden geconfronteerd wanneer ze de data willen gebruiken. Om informatie uit data te halen, is hoge-kwaliteitsdata vereist. Om kwaliteitsdata te verkrijgen, is datapreparatie vereist. Datapreparatie-taken nemen echter veel tijd in beslag en moeten keer op keer worden uitgevoerd. Zo besteedt een data scientist ongeveer 80% van de tijd aan datapreparatie-taken . De oplossing voor bovenstaande uitdagingen en beperkingen is om alle data centraal te integreren, om vervolgens van al deze data, hoge-kwaliteitsdata te maken en deze automatisch te streamen naar upstream users voor consumptie. Zodra de hoge-kwaliteitsdata is gerealiseerd, kunnen ‘data curation & data normalisation’ worden toegepast op de oorspronkelijke databronnen na goedkeuring door een data steward, data engineer of data owner. Dit is precies wat de Datafabriek doet! Om deze hoge-kwaliteitsdata te maken , maakt de Datafabriek gebruik van 18 datakwaliteit metrieken . “By 2022, 70% of organizations will rigorously track data quality levels via metrics, increasing data quality by 60% to significantly reduce operational risks and costs.” Melody Chein, Saul Judah, Ankush Jain - Gartner -

18 data quality metrics die worden toegepast

De 18 verschillende ‘data quality metrics’ vertellen u met welke kwaliteitsdata u daadwerkelijk te maken heeft. Het oplossen van problemen met de datakwaliteit begint met een goed begrip van de schade aan de data. En dit is waar de 18 ‘data quality metrics’ om draaien. Met de Datafabriek wordt uw geïntegreerde data geanalyseerd en gerangschikt. Door het gewenste kwaliteitsniveau van uw data te definiëren, wordt u groepsgewijs en met Machine Learning-ondersteuning, geïnformeerd over de voorgestelde aanpassingen om uw datakwaliteitsniveau te verhogen. 1 . Data Accuracy De nauwkeurigheid van de data wordt bepaald door het aantal verschillende databronnen dat aan dezelfde waarde van data voor eenzelfde eigenschap refereert. De waarden hoeven als zodanig niet hetzelfde te zijn, maar refereren aan dezelfde waarde, bijvoorbeeld +44 53 53 53 53 kan een correct telefoonnummer zijn voor een persoon, maar dat is ook 53 53 53 53. Het zijn fysiek verschillende waarden maar in wezen zijn beide nauwkeurig. 2 . Data Consistency Dataconsistentie lijkt sterk op data nauwkeurigheid, maar is meer gebaseerd op datatypen. Als voorbeeld: als een waarde begint als een getal, maar plotseling wordt gewijzigd in een decimale waarde en vervolgens wordt teruggezet naar een geheel getal, zou dit een lage consistentie in data zijn. 3 . Data Integrity Data-integriteit is vergelijkbaar met de data metrics nauwkeurigheid en dataconsistentie, maar houdt rekening met een temporele factor, d.w.z. hoe vaak, keer op keer, bevestigd de Datafabriek dat de waarde van een eigenschap correct is. 4 . Data Uniformity De uniformiteit van data wordt bepaald op een wijze die zeer vergelijkbaar is met de ‘data quality metric’ data nauwkeurigheid, maar is veel strenger. Data-uniformiteit wordt gescoord op het aantal verschillende bronnen dat naar dezelfde waarde in hetzelfde formaat verwijst. Hoe dichter het formaat is, hoe hoger de uniformiteit. Als bijvoorbeeld één record aangeeft dat de industrie van een bedrijf "Software" is en een ander record "software", dan is dit een zeer nauwe uniformiteit, maar niet 100%. Hoe meer verschillen in de waarden, hoe lager de uniformiteit. 5 . Data Completeness De volledigheid van data wordt bepaald door de aanwezigheid van een waarde. De waarde mag geen lege tekenreeks of null zijn. De Datafabriek behandelt waarden zoals “Onbekend”, “Nvt” en “0” als waarden. 6 . Data Relevance Om data-relevantie te bepalen, moet de Datafabriek relevantie op “iets” vastzetten. De Datafabriek pint het op de organisatie, d.w.z. wat relevant is voor het bedrijf. De Datafabriek scoort relevantie op hoeveel hops een record verwijderd is van de organisatie. Voorbeeld: als u een werknemer van een organisatie bent, bent u direct verbonden. Bent u een contactpersoon van een medewerker van een organisatie, dan bent u 2 hops verwijderd. De Datafabriek koppelt dit ook aan de relevantie van de feitelijke metadata die u op die records heeft. Als voorbeeld, vandaag is een faxnummer van een bedrijf niet relevant. Het hebben van hun jaarlijkse inkomsten, aantal medewerkers en website is veel relevanter. Alles wat 5 of meer hops verwijderd is van het bedrijf heeft een zeer lage relevantie. 7 . Data Stewardship Data-stewardship wordt bepaald door hoeveel handmatige opschoning, labeling en beheer is uitgevoerd op een record. 8 . Data Timeliness Tijdigheid van data wordt bepaald door tijd tot waarde en levering. Hoe meer real-time data wordt gesynchroniseerd met de Datafabriek, hoe beter de Tijdigheid. Ook worden de consumenten van de data in ogenschouw genomen. 9 . Data Accountability Data-verantwoording is gebaseerd op het beheer en eigendom van de data. Hoe meer mensen verantwoordelijk zijn voor een record, hoe hoger de data-verantwoording. Data-verantwoording kan worden vergroot door ervoor te zorgen dat producten, gegevens, governance-eigenaren van de data, integraties en meer worden toegewezen. Als deze niet zijn ingesteld zal de data-verantwoording 0% zijn, omdat aan het eind van de dag de Datafabriek alleen naar de metadata van de auteurs kan verwijzen om de verantwoording te veronderstellen. 1 0 . Data Validity De geldigheid van data is afkomstig van de data-eigenaren die data-audits uitvoeren. Hoe meer data-audits worden uitgevoerd, hoe hoger de geldigheid. 1 1 . Data Connectivity Data-connectiviteit wordt bepaald door de dichtheid van de data-records. De Datafabriek zorgt voor een volledig verbonden netwerk van alle data. Net als bij Google, Twitter, Facebook en LinkedIn geldt: hoe dichter een record is, hoe belangrijker het is. Hoe meer gegevens direct of indirect aan een record zijn gekoppeld, hoe hoger het percentage data-connectiviteit zal zijn. 1 2 . Data Reliability Betrouwbaarheid van data komt neer op vertrouwen. Vertrouwen kan komen van een data-eigenaar die de betrouwbaarheid kan beïnvloeden. Als zodanig is de eerste invloed van betrouwbaarheid een statische score van hoe betrouwbaar de bron is. Voorbeeld: het is typisch verplicht dat HR-systemen gegevens van zeer hoge kwaliteit bewaren. Bij het toevoegen van integraties aan de Datafabriek kan de verwachte betrouwbaarheid van de databron worden ingesteld. 1 3 . Data Conformity Data-conformiteit wordt bepaald door de overeenstemming van de waarde met wat van de wereld wordt verwacht. Goede voorbeelden zouden zijn dat, hoewel 132 1 125 1 een telefoonnummer kan zijn, het niet in een formaat is dat door enige norm wordt erkend. 1 4 . Data Flexibility Dataflexibiliteit wordt bepaald door hoeveel bepaalde data door verschillende consumenten worden verbruikt. Als dezelfde data gebruikt wordt in een Data Warehouse, voor Business Intelligence, Machine Learning en Process Analytics dan zal de dataflexibiliteit hoog zijn. 1 5 . Data Staleness Data oudheid wordt bepaald door de snelheid van updates in records met betrekking tot de nauwkeurigheid. Als voorbeeld, een e-mailadres of telefoonnummer van vandaag, kan morgen achterhaald zijn. De Datafabriek bepaalt hoe lang uw data de verkeerde eigenschapswaarde heeft. 1 6 . Data Availability De beschikbaarheid van data wordt bepaald door hoe vaak de data die u nodig heeft, beschikbaar is voor gebruik. Zijn er problemen met de data-stroom? Voorbeeld: data kan uit meerdere bronnen binnenkomen en deze data wordt doorgestuurd naar business intelligence-tools. Het moment dat deze data niet stroomt, zal op dat moment resulteren in een lage beschikbaarheid. 1 7 . Data Usability De bruikbaarheid van gegevens wordt bepaald door het aantal consumenten. Data die constant door veel consumenten worden gebruikt, impliceert een hoge data-bruikbaarheid. 1 8 . Data Quality Datakwaliteit is een optelsom van alle scores bij elkaar. Dit impliceert dat er enkele data metrics zijn die de gemiddelde datakwaliteit drastisch kunnen verlagen. Het is waarschijnlijk dat de datakwaliteitsscore laag zal zijn wanneer u uw data zojuist met de Datafabriek heeft geïntegreerd.
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet

Data quality metrics in de Datafabriek

Data quality metrics Lees verder Lees verder
De Datafabriek: hoe werkt het?
+31 (0) 252 225 466
All about data and innovation
© S10 group 2020
+31 (0) 252 225 466
Secured by Sectigo

Data quality metrics

Data wordt gezien als de nieuwe olie, maar data brengt wel veel uitdagingen met zich mee alvorens controle erover wordt verkregen en daadwerkelijk informatie uit de waardevolle data gehaald kan worden: data kan ongestructureerd zijn data kan overal verspreid opgeslagen liggen waaronder in meerdere silo's relevante en recente data is moeilijk terug te vinden data kan door entiteiten in andere landen, op verschillende wijze verwerkt worden records zijn onvolledig of ontbreken zelfs Dit zijn slechts enkele van de data-uitdagingen waarmee upstream-users worden geconfronteerd wanneer ze de data willen gebruiken. Om informatie uit data te halen, is hoge-kwaliteitsdata vereist. Om kwaliteitsdata te verkrijgen, is datapreparatie vereist. Datapreparatie-taken nemen echter veel tijd in beslag en moeten keer op keer worden uitgevoerd. Zo besteedt een data scientist ongeveer 80% van de tijd aan datapreparatie-taken . De oplossing voor bovenstaande uitdagingen en beperkingen is om alle data centraal te integreren, om vervolgens van al deze data, hoge-kwaliteitsdata te maken en deze automatisch te streamen naar upstream users voor consumptie. Zodra de hoge-kwaliteitsdata is gerealiseerd, kunnen ‘data curation & data normalisation’ worden toegepast op de oorspronkelijke databronnen na goedkeuring door een data steward, data engineer of data owner. Dit is precies wat de Datafabriek doet! Om deze hoge-kwaliteitsdata te maken , maakt de Datafabriek gebruik van 18 datakwaliteit metrieken . “By 2022, 70% of organizations will rigorously track data quality levels via metrics, increasing data quality by 60% to significantly reduce operational risks and costs.” Melody Chein, Saul Judah, Ankush Jain - Gartner -

18 data quality metrics die worden toegepast

De 18 verschillende ‘data quality metrics’ vertellen u met welke kwaliteitsdata u daadwerkelijk te maken heeft. Het oplossen van problemen met de datakwaliteit begint met een goed begrip van de schade aan de data. En dit is waar de 18 ‘data quality metrics’ om draaien. Met de Datafabriek wordt uw geïntegreerde data geanalyseerd en gerangschikt. Door het gewenste kwaliteitsniveau van uw data te definiëren, wordt u groepsgewijs en met Machine Learning-ondersteuning, geïnformeerd over de voorgestelde aanpassingen om uw datakwaliteitsniveau te verhogen. 1 . Data Accuracy De nauwkeurigheid van de data wordt bepaald door het aantal verschillende databronnen dat aan dezelfde waarde van data voor eenzelfde eigenschap refereert. De waarden hoeven als zodanig niet hetzelfde te zijn, maar refereren aan dezelfde waarde, bijvoorbeeld +44 53 53 53 53 kan een correct telefoonnummer zijn voor een persoon, maar dat is ook 53 53 53 53. Het zijn fysiek verschillende waarden maar in wezen zijn beide nauwkeurig. 2 . Data Consistency Dataconsistentie lijkt sterk op data nauwkeurigheid, maar is meer gebaseerd op datatypen. Als voorbeeld: als een waarde begint als een getal, maar plotseling wordt gewijzigd in een decimale waarde en vervolgens wordt teruggezet naar een geheel getal, zou dit een lage consistentie in data zijn. 3 . Data Integrity Data-integriteit is vergelijkbaar met de data metrics nauwkeurigheid en dataconsistentie, maar houdt rekening met een temporele factor, d.w.z. hoe vaak, keer op keer, bevestigd de Datafabriek dat de waarde van een eigenschap correct is. 4 . Data Uniformity De uniformiteit van data wordt bepaald op een wijze die zeer vergelijkbaar is met de ‘data quality metric’ data nauwkeurigheid, maar is veel strenger. Data-uniformiteit wordt gescoord op het aantal verschillende bronnen dat naar dezelfde waarde in hetzelfde formaat verwijst. Hoe dichter het formaat is, hoe hoger de uniformiteit. Als bijvoorbeeld één record aangeeft dat de industrie van een bedrijf "Software" is en een ander record "software", dan is dit een zeer nauwe uniformiteit, maar niet 100%. Hoe meer verschillen in de waarden, hoe lager de uniformiteit. 5 . Data Completeness De volledigheid van data wordt bepaald door de aanwezigheid van een waarde. De waarde mag geen lege tekenreeks of null zijn. De Datafabriek behandelt waarden zoals “Onbekend”, “Nvt” en “0” als waarden. 6 . Data Relevance Om data-relevantie te bepalen, moet de Datafabriek relevantie op “iets” vastzetten. De Datafabriek pint het op de organisatie, d.w.z. wat relevant is voor het bedrijf. De Datafabriek scoort relevantie op hoeveel hops een record verwijderd is van de organisatie. Voorbeeld: als u een werknemer van een organisatie bent, bent u direct verbonden. Bent u een contactpersoon van een medewerker van een organisatie, dan bent u 2 hops verwijderd. De Datafabriek koppelt dit ook aan de relevantie van de feitelijke metadata die u op die records heeft. Als voorbeeld, vandaag is een faxnummer van een bedrijf niet relevant. Het hebben van hun jaarlijkse inkomsten, aantal medewerkers en website is veel relevanter. Alles wat 5 of meer hops verwijderd is van het bedrijf heeft een zeer lage relevantie. 7 . Data Stewardship Data-stewardship wordt bepaald door hoeveel handmatige opschoning, labeling en beheer is uitgevoerd op een record. 8 . Data Timeliness Tijdigheid van data wordt bepaald door tijd tot waarde en levering. Hoe meer real-time data wordt gesynchroniseerd met de Datafabriek, hoe beter de Tijdigheid. Ook worden de consumenten van de data in ogenschouw genomen. 9 . Data Accountability Data-verantwoording is gebaseerd op het beheer en eigendom van de data. Hoe meer mensen verantwoordelijk zijn voor een record, hoe hoger de data- verantwoording. Data-verantwoording kan worden vergroot door ervoor te zorgen dat producten, gegevens, governance-eigenaren van de data, integraties en meer worden toegewezen. Als deze niet zijn ingesteld zal de data-verantwoording 0% zijn, omdat aan het eind van de dag de Datafabriek alleen naar de metadata van de auteurs kan verwijzen om de verantwoording te veronderstellen. 1 0 . Data Validity De geldigheid van data is afkomstig van de data- eigenaren die data-audits uitvoeren. Hoe meer data-audits worden uitgevoerd, hoe hoger de geldigheid. 1 1 . Data Connectivity Data-connectiviteit wordt bepaald door de dichtheid van de data-records. De Datafabriek zorgt voor een volledig verbonden netwerk van alle data. Net als bij Google, Twitter, Facebook en LinkedIn geldt: hoe dichter een record is, hoe belangrijker het is. Hoe meer gegevens direct of indirect aan een record zijn gekoppeld, hoe hoger het percentage data-connectiviteit zal zijn. 1 2 . Data Reliability Betrouwbaarheid van data komt neer op vertrouwen. Vertrouwen kan komen van een data-eigenaar die de betrouwbaarheid kan beïnvloeden. Als zodanig is de eerste invloed van betrouwbaarheid een statische score van hoe betrouwbaar de bron is. Voorbeeld: het is typisch verplicht dat HR-systemen gegevens van zeer hoge kwaliteit bewaren. Bij het toevoegen van integraties aan de Datafabriek kan de verwachte betrouwbaarheid van de databron worden ingesteld. 1 3 . Data Conformity Data-conformiteit wordt bepaald door de overeenstemming van de waarde met wat van de wereld wordt verwacht. Goede voorbeelden zouden zijn dat, hoewel 132 1 125 1 een telefoonnummer kan zijn, het niet in een formaat is dat door enige norm wordt erkend. 1 4 . Data Flexibility Dataflexibiliteit wordt bepaald door hoeveel bepaalde data door verschillende consumenten worden verbruikt. Als dezelfde data gebruikt wordt in een Data Warehouse, voor Business Intelligence, Machine Learning en Process Analytics dan zal de dataflexibiliteit hoog zijn. 1 5 . Data Staleness Data oudheid wordt bepaald door de snelheid van updates in records met betrekking tot de nauwkeurigheid. Als voorbeeld, een e-mailadres of telefoonnummer van vandaag, kan morgen achterhaald zijn. De Datafabriek bepaalt hoe lang uw data de verkeerde eigenschapswaarde heeft. 1 6 . Data Availability De beschikbaarheid van data wordt bepaald door hoe vaak de data die u nodig heeft, beschikbaar is voor gebruik. Zijn er problemen met de data-stroom? Voorbeeld: data kan uit meerdere bronnen binnenkomen en deze data wordt doorgestuurd naar business intelligence-tools. Het moment dat deze data niet stroomt, zal op dat moment resulteren in een lage beschikbaarheid. 1 7 . Data Usability De bruikbaarheid van gegevens wordt bepaald door het aantal consumenten. Data die constant door veel consumenten worden gebruikt, impliceert een hoge data- bruikbaarheid. 1 8 . Data Quality Datakwaliteit is een optelsom van alle scores bij elkaar. Dit impliceert dat er enkele data metrics zijn die de
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet
S10 jigsaw bullet

Data quality metrics in de Datafabriek

Data quality metrics Lees verder Lees verder
De Datafabriek: hoe werkt het?
Maak hoge-kwaliteitsdata Werk met 18 verschillende datakwaliteit metrieken Data curatie & normalisatie van de data bronnen
Datafabriek data iPaaS en DaaS logo