Data unification via automated (!) data integration
Automateddata blending & data connectionsdata cleansing & deduplication& data enrichment
Vragen? Neem contact op!
De ‘engines’ achter dit data unificatie-proces
Doorgebruiktemakenvan‘eventualconnectivity’wordtalledata(gestructureerde,ongestructureerdeenimageonlyfiles diewordenOCR-ed)vaninterneenexternebronnenverzamelddoorcrawlersenautomatischsamengevoegdviaeen ingenieusprocesdoormiddelvano.a.onze‘mergingengine’.Westellen‘connecteddata’samenzonderdatwevooraf ‘schema's’hoeventekennen.Hetsamenvoegenenmatchenwordt‘onthefly’gedaan,tijdenshetdata-integratieproces zelf:dedata-relatieswordenautomatischgelegd.Graph-technologievormtdekernvanditproces,maar‘searchcluster’, ‘blob store’, ‘relation’ en ‘distributed cache’ zijn even belangrijk voor de snelheid en algehele functionaliteit.Onze‘inference-engine’helptomconnectiesafteleidenuitzelfsdemeestverontreinigdedata.Hetafleidenvan connecties kost wat tijd, maar levert wel betere resultaten op.Onze‘weighteddecisionengine’neemtalleenbeslissingenalshetstatistischgezienzekerisdateenbeslissingjuistis. Alshetbetrouwbaarheidsniveauhiervantelaagis,wachtenwetotermeerdataisgeïntegreerdenbeoordelenwede eerderebeslissingopnieuw.Wekunnenulatenzienwaarombeslissingenwordengenomen,wateveneensbijdraagtaan leerprocesvanonze‘engine’omtrentdegenomenbeslissingen.Deze‘engine’draagtbijaanhetvoortdurendherevalueren, bijwerken en verrijken van uw data. In feite, hoe meer data er wordt geïntegreerd, hoe hoger de data-kwaliteit zal worden!Onze‘cleansingengine’schoontdataopennormaliseertdeze.Dezeenginecorrigeertspelfoutenencorrigeertonjuiste identificatoren zoals e-mail, telefoonnummers en adressen. Hiervoor gebruikt de Slimme Datafabriek onder andere:‘fuzzy merging’ van onder andere namen, bedrijven en locaties‘named entity extraction’ om de statistische waarschijnlijkheid van matches te bepalen‘parse trees’ om de context achter tekst te begrijpenexterne lookups voor het valideren van invoerHetopschonings-enformatproceswordtautomatischuitgevoerd.Metdezestapwordtuwdataoptimaalvoorbereidopde verdere dataverwerking door de Slimme Datafabriek.Onze‘de-duplicationengine’biedtueenalgemenemanieromabsoluutallesteontdubbelen,vantakentotdocumenten. DeSlimmeDatafabriekconsolideertdeduplicateneninformeertueenvoudigoverdeverschillendelocatiesvandezelfde documenten.Metons‘reinforcementleaning’kuntuinteractiefmanueeldeinputendekwaliteitvanuwwaardevolledataverder verbeteren.ZodrauwgegevensdoordeSlimmeDatafabriekheenstromen,streamenweenkelevragendiemoeten wordenbeantwoord.HierdoorkandeDatafabrieklerenvanb.v.uwspecifiekeproductnamen.DithelptdeDatafabriekom (toekomstige) beslissingen te nemen omtrent uw data.Onze‘processingengine’(pipeline)iseenextensievecombinatievanverwerkingsstappenomelktypedatatekunnen begrijpen, te kunnen opschonen en te verrijken.Deprocessenwordenondersteunddoordashboardsenintuïtieveinterfaces.Onderanderekuntumetonze18 datakwaliteitmetrieken,dekwaliteitvanuwdatapermetriekzien.Doordeniveausaantepassen,kunnen geautomatiseerdetakengroepsgewijswordengoedgekeurddooruwdata-engineersenkunnenuwdatastewards toegewezen taken (ja/nee-vragen) ondersteunen als onderdeel van het ‘reinforcement learning’ proces.
De geünificeerde data beschikbaar maken: data streaming
IndeSlimmeDatafabriekisallegeünificeerdedataalsdatastroomvoorubeschikbaar.DeSlimmeDatafabriekmaakt gebruikvanGraph-basedmodellingenondersteuntalleusecases!Zoalshierbovenvermeld,maaktdeSlimmeDatafabriek gebruikvanvijfverschillendesoortendatabaseswaarmeeudegegevensdieunodighebt,kuntmodellerenenverwerken. U“abonneert”ueenvoudigopeenbepaaldedata-subset.Dezedatawordtautomatischaangeleverdaandeapplicatieof hetplatformdatugebruikt.Nieuwedatadieinuworganisatiewordtverwerktmaarovereenkomtmetdezesubset,wordtin bijnareal-timeaangeleverd.Elkeapplicatiezalprofiterenvanhetontvangenvan“live”dataendatadieinwaardeis toegenomen.Vergelijkbarefunctionaliteitwordtondersteunddoor"keepmeintheloop",waarmeeuinformatieinbijnareal-time,in bijvoorbeeld uw mailbox, kunt ontvangen. Dit stelt u in staat om te reageren op deze nieuwe en relevante informatie.Samenvattend,deSlimmeDatafabriekunificeertdatageautomatiseerd,encreëerthiermeeeensolidedatafundament waarbijalledataqueryableis!DeDatafabriekkanhoge-kwaliteitdatastreamenvoorverdereverwerking(analyse,data science,BI,AI,innovatieetc.).Uheeftdevolledigecontroleoverhoeuuwdatawiltgebruiken.DeSlimmeDatafabriek “retourneert”uwdataeenvoudigopeenflexibelemanier,opgeschoondenverrijkt.Hiermeewordtdeefficiëntie verbeterdenwordtertijdvrijgemaaktdieaanuwbusinessusecasesgespendeerdkanworden.Tevenskunnener betere beslissingen worden genomen!
Data unificatie van al uw data via geautomatiseerdedata integratie (zelfs 1.000-den bronnen!)Maak hoge-kwaliteitdata beschikbaar voor iedereen
Data ligt verspreid opgeslagen in data silos
Technischgezienisalledatadieunodigheeftbinnenuworganisatieopgeslagen.Echter,zolanguwdataovermeerdere afdelingenindatasilo'sverspreidblijftennietwordtgeanalyseerd,ishetnutteloos.Dataunificatielevertwaardevooruw organisatie.Dataunificatieondersteunt‘upstreamconsumers’,zoalsdatascientistsenanalisten,omqueriesuittevoeren. Hiermee kunnen ze alle data verkrijgen die ze nodig hebben om hun activiteiten uit te oefenen.Dataunificatierealiserenuitcomplexesystemenisechtereenvandegrootsteuitdagingenomterealiseren.Veelbedrijven hebben meer dan honderd, zo niet duizenden systemen en het is niet mogelijk om hierbij ETL te gebruiken.
Automatische data unificatie met de Datafabriek
De Slimme Datafabriek lost de moeilijkste uitdaging op het gebied van datamanagement op:“Hoe kan data uit databronnen en complexe systemen op een geautomatiseerde manier samengevoegd worden?”Deeerstestapishetverzamelen(extraheren)vandata.Ditishetmakkelijkegedeelte.Maaralleendataverzamelenisniet genoeg.Omdataunificatieterealiseren,moetuwdataverbondenzijn(‘connecteddata’).Idealiterzouhetresultaat 'goudenrecords'moetenzijn:tevertrouwendatadienauwkeurigencorrectis.Omdittebereiken,creëertdeSlimme Datafabriek‘connecteddata’enverbetertdedatakwaliteitdoordedataopteschonen,dedatateontdubbelenente normaliserenenlegerecordsopeengeautomatiseerdemanierintevullen.Metdezeuniekeengeautomatiseerdewijze vandata-integratie,maakthetnietuitofermaareendozijnaandatabronnenmoetenwordengeïntegreerdofenkele duizenden! Alleen de integratietijd zelf zal toenemen.
Doorgebruiktemakenvan‘eventualconnectivity’wordtalle data(gestructureerde,ongestructureerdeenimageonlyfiles diewordenOCR-ed)vaninterneenexternebronnen verzamelddoorcrawlersenautomatischsamengevoegdvia eeningenieusprocesdoormiddelvano.a.onze‘merging engine’.Westellen‘connecteddata’samenzonderdatwe vooraf‘schema's’hoeventekennen.Hetsamenvoegenen matchenwordt‘onthefly’gedaan,tijdenshetdata-integratieproceszelf:dedata-relatieswordenautomatisch gelegd.Graph-technologievormtdekernvanditproces,maar ‘searchcluster’,‘blobstore’,‘relation’en‘distributedcache’zijn even belangrijk voor de snelheid en algehele functionaliteit.Onze‘inference-engine’helptomconnectiesafteleidenuit zelfsdemeestverontreinigdedata.Hetafleidenvan connecties kost wat tijd, maar levert wel betere resultaten op.Onze‘weighteddecisionengine’neemtalleenbeslissingen alshetstatistischgezienzekerisdateenbeslissingjuistis. Als hetbetrouwbaarheidsniveauhiervantelaagis,wachtenwetot ermeerdataisgeïntegreerdenbeoordelenwedeeerdere beslissingopnieuw.Wekunnenulatenzienwaarom beslissingenwordengenomen,wateveneensbijdraagtaan leerprocesvanonze‘engine’omtrentdegenomen beslissingen.Deze‘engine’draagtbijaanhetvoortdurend herevalueren,bijwerkenenverrijkenvanuwdata.Infeite,hoe meerdataerwordtgeïntegreerd,hoehogerdedata-kwaliteit zal worden!Onze‘cleansingengine’schoontdataopennormaliseert deze.Dezeenginecorrigeertspelfoutenencorrigeertonjuiste identificatorenzoalse-mail,telefoonnummersenadressen. Hiervoor gebruikt de Slimme Datafabriek onder andere:‘fuzzymerging’vanonderanderenamen,bedrijvenen locaties‘namedentityextraction’omdestatistische waarschijnlijkheid van matches te bepalen‘parse trees’ om de context achter tekst te begrijpenexterne lookups voor het valideren van invoerHetopschonings-enformatproceswordtautomatisch uitgevoerd.Metdezestapwordtuwdataoptimaalvoorbereid op de verdere dataverwerking door de Slimme Datafabriek.Onze‘de-duplicationengine’biedtueenalgemenemanier omabsoluutallesteontdubbelen,vantakentotdocumenten. DeSlimmeDatafabriekconsolideertdeduplicatenen informeertueenvoudigoverdeverschillendelocatiesvan dezelfde documenten.Metons‘reinforcementleaning’kuntuinteractiefmanueelde inputendekwaliteitvanuwwaardevolledataverder verbeteren.ZodrauwgegevensdoordeSlimmeDatafabriek heenstromen,streamenweenkelevragendiemoetenworden beantwoord.HierdoorkandeDatafabrieklerenvanb.v.uw specifiekeproductnamen.DithelptdeDatafabriekom (toekomstige) beslissingen te nemen omtrent uw data.Onze‘processingengine’(pipeline)iseenextensieve combinatievanverwerkingsstappenomelktypedatate kunnen begrijpen, te kunnen opschonen en te verrijken.Deprocessenwordenondersteunddoordashboardsen intuïtieveinterfaces.Onderanderekuntumetonze18 datakwaliteitmetrieken,dekwaliteitvanuwdatapermetriek zien.Doordeniveausaantepassen,kunnen geautomatiseerdetakengroepsgewijswordengoedgekeurd dooruwdata-engineersenkunnenuwdatastewards toegewezentaken(ja/nee-vragen)ondersteunenalsonderdeel van het ‘reinforcement learning’ proces.
De geünificeerde data beschikbaar maken: data
streaming
IndeSlimmeDatafabriekisallegeünificeerdedataals datastroomvoorubeschikbaar.DeSlimmeDatafabriekmaakt gebruikvanGraph-basedmodellingenondersteuntalleuse cases!Zoalshierbovenvermeld,maaktdeSlimmeDatafabriek gebruikvanvijfverschillendesoortendatabaseswaarmeeude gegevensdieunodighebt,kuntmodellerenenverwerken.U “abonneert”ueenvoudigopeenbepaaldedata-subset.Deze datawordtautomatischaangeleverdaandeapplicatieofhet platformdatugebruikt.Nieuwedatadieinuworganisatie wordtverwerktmaarovereenkomtmetdezesubset,wordtin bijnareal-timeaangeleverd.Elkeapplicatiezalprofiterenvan hetontvangenvan“live”dataendatadieinwaardeis toegenomen.Vergelijkbarefunctionaliteitwordtondersteunddoor"keepme intheloop",waarmeeuinformatieinbijnareal-time,in bijvoorbeelduwmailbox,kuntontvangen.Ditsteltuinstaat om te reageren op deze nieuwe en relevante informatie.Samenvattend,deSlimmeDatafabriekunificeertdata geautomatiseerd,encreëerthiermeeeensolide datafundamentwaarbijalledataqueryableis!DeDatafabriek kanhoge-kwaliteitdatastreamenvoorverdereverwerking (analyse,datascience,BI,AI,innovatieetc.).Uheeftde volledigecontroleoverhoeuuwdatawiltgebruiken.De SlimmeDatafabriek“retourneert”uwdataeenvoudigopeen flexibelemanier,opgeschoondenverrijkt.Hiermeewordtde efficiëntieverbeterdenwordtertijdvrijgemaaktdieaan uwbusinessusecasesgespendeerdkanworden.Tevens kunnen er betere beslissingen worden genomen!
Data ligt verspreid opgeslagen in data silos
Technischgezienisalledatadieunodigheeftbinnenuw organisatieopgeslagen.Echter,zolanguwdataovermeerdere afdelingenindatasilo'sverspreidblijftennietwordt geanalyseerd,ishetnutteloos.Dataunificatielevertwaarde vooruworganisatie.Dataunificatieondersteunt‘upstream consumers’,zoalsdatascientistsenanalisten,omqueriesuit tevoeren.Hiermeekunnenzealledataverkrijgendiezenodig hebben om hun activiteiten uit te oefenen.Dataunificatierealiserenuitcomplexesystemenisechtereen vandegrootsteuitdagingenomterealiseren.Veelbedrijven hebbenmeerdanhonderd,zonietduizendensystemenenhet is niet mogelijk om hierbij ETL te gebruiken.
Automatische data unificatie met de Datafabriek
DeSlimmeDatafabrieklostdemoeilijksteuitdagingophet gebied van datamanagement op:“Hoe kan data uit databronnen en complexe systemen op een geautomatiseerde manier samengevoegd worden?”Deeerstestapishetverzamelen(extraheren)vandata.Ditis hetmakkelijkegedeelte.Maaralleendataverzamelenisniet genoeg.Omdataunificatieterealiseren,moetuwdata verbondenzijn(‘connecteddata’).Idealiterzouhetresultaat 'goudenrecords'moetenzijn:tevertrouwendatadie nauwkeurigencorrectis.Omdittebereiken,creëertde SlimmeDatafabriek‘connecteddata’enverbetertde datakwaliteitdoordedataopteschonen,dedatate ontdubbelenentenormaliserenenlegerecordsopeen geautomatiseerdemanierintevullen.Metdezeuniekeen geautomatiseerdewijzevandata-integratie,maakthetnietuit ofermaareendozijnaandatabronnenmoetenworden geïntegreerdofenkeleduizenden!Alleendeintegratietijd zelf zal toenemen.