Data Lineage

Wat is Data Lineage?
Data Lineage is de reis die data aflegt van de bron tot een bepaald moment waarop deze getoond wordt in een applicatie of rapport. Het kunnen rapporteren van data Lineage is een belangrijke functionaliteit van Data Warehouse en Business Intelligence omgevingen. Omdat data steeds meer gebruikt wordt binnen bedrijven in bijvoorbeeld Analytics, A.I. en Machine Learning toepassingen, wordt data lineage ook steeds belangrijker. Hiermee worden de reizen die data aflegt steeds omvangrijker en langer. In de ideale situatie kan de data gevolgd worden vanaf het moment dat deze initieel vastgelegd wordt in een operationeel system, tot alle uithoeken van het bedrijf waarnaar deze data gerepliceerd wordt (al dan niet realtime).

Waaruit bestaat Data Lineage informatie?
Data stroomt door organisaties via geautomatiseerde processen. Een proces leest data uit één of meer bronnen (input), voert een aantal bewerkingen uit (transformaties) en heeft een bepaalde uitvoer. Deze uitvoer kan zijn: het wegschijven van data naar een andere plek, of het tonen van gegevens op bijvoorbeeld een scherm of rapport. Data op een rapport heeft vaak een lange weg afgelegd via verschillende processen. De Data Lineage bestaat uit een ketting van alle processen waardoor de data gestroomd heeft, waarbinnen de lineage op veld niveau getoond kan worden.

Verschillende type Data Lineage
Er zijn verschillende typen Data Lineage. Deze verschillen hebben te maken met hoe de Data Lineage informatie gepresenteerd wordt, hoe deze wordt vastgelegd en welk doel deze heeft.

Technical Lineage
Technical lineage is gericht op ontwikkelaars en beheerders van de data processen. Dit type lineage laat te technische stappen zien die in een dataflow job doorlopen worden. Er is toolkennis vereist om dit type lineage te begrijpen.

Business Lineage
Business Lineage is meer gericht op business gebruikers van het systeem. Business Lineage laat de weg zien die data aflegt maar laat hierbij de technische stappen en details achterwege, zodat het begrijpelijk is voor business users.

Operational Lineage
Operational Lineage laat de operationele informatie zien, die betrekking heeft op de data lineage. Denk hierbij aan de tijd dat data processen gelopen hebben of hoeveel records zijn gelezen en geschreven.

Data Provenance

Labels