Data Warehouse

Data Warehouse, Datawarehouse, Informationslager, Datalager... kärt barn har många namn! Låt oss titta närmare på grunderna för datalagret och på definitionen av ett sådant, enligt Bill Inmon, en av föregångarna i datalager-sammanhang: ”A Data Warehouse is a subject oriented, integrated, non-volatile and time variant collection of data in support of management desicions.”

Behovsdrivet

En av de stora skillnaderna mellan en typisk databas och ett datalager är hur användaren använder informationen i systemet. I databaser för operativa system är data lagrat för att på snabbast möjliga sätt uppdateras eller läggas till, dessutom är datamodellen för sådana databaser normaliserad i flera steg för att optimera snabbheten i systemet, minska redundansen av data och således även behoven av diskutrymme. I ett datalager har användaren sällan behov av att kunna uppdatera tabellerna med ny information. Här är det viktigare att snabbt kunna aggregera, summera och sortera informationen för att få fram utförliga rapporter eller använda den i så kallade OLAP-verktyg
(Online Analytical Processing).

En annan avgörande skillnad mellan de båda teknikerna är att datalagrets struktur och datamodell först och främst skall tillgodose verksamhetens behov av information. Datalagret skall alltså direkt stödja möjligheten att fatta verksamhetsbeslut, enligt Inmon, det är därför begreppet beslutstödssystem ibland används för att beskriva ett datalager. För att underlätta besluts-fattandet måste informationen därför paketeras och anpassas till specifika behov, detta kan göras med så kallade Data Marts (Dataskafferi). Ett Data Mart är ytterligare en summering av data från ett datalager. Varje avdelning kan till exempel ha ett eget Data Mart, endast med data som är relevanta för avdelningen. Man kan likna det vid en restaurang; restaurangen får in leveranser av råvaror men gästen ser endast de färdiga rätterna på menyn, han är i de flesta fall föga intresserad av detaljerna kring råvarorna utan vill endast beställa en färdig rätt. Man kan se leveranserna av råvaror som laddning av datalagret, de färdiga rätterna som aggregerat data och menyn som ett Data Mart som endast presenterar en liten del av råvarorna.

Historiska analyser

Själva grundidén med ett datalager är att genom stora mängder data få fram information som är svår, till och med omöjlig att få fram ur en vanlig normaliserad databas från de operativa systemen i en verksamhet. Därför hör även historik till definitionen av datalager. Genom att lagra alla affärs-transaktioner under flera år kan till exempel en marknadsavdelning på ett företag se konsumtionsmönster och optimera försäljningen eller erbjuda sina kunder riktade rabatter. Våra Konsumkort är ett bra exempel på användandet av datalager. För varje köp registreras vad vi har köpt, när och var vi har köpt varan. Genom personliga bonuskort kopplas kvittot ihop med uppgifter som kön, ålder och hemort.

Med stora mängder data kan även mer avancerade analyser göras, exempelvis kan bedrägerier avslöjas med hjälp av en teknik som kallas Data Mining.
Data Mining är egentligen ett samlingsnamn för flera olika tekniker där bland annat neurala nät, fuzzy logic, induktion och beslutsträd är några av analys-teknikerna. Gemensamt för dessa tekniker är att de är bra på att hitta mönster i mycket stora datamängder, både strukturerade och ostrukturerade.
En annan vanlig teknik som utnyttjar de stora datamängderna är OLAP (Online Analytical Processing). OLAP är en beteckning på multidimensionella analysverktyg. Genom att skapa så kallade OLAP-kuber av data kan användaren skapa mycket dynamiska rapporter direkt på sin datorskärm. Genom att ’korskoppla’ data i en OLAP-kub kan man se samma begrepp i flera dimensioner, man kan välja olika aggregationsnivåer och man kan även utföra så kallad ’Drill down’ där man borrar sig ned genom aggregerat data till mer detaljerade nivåer. Ett typiskt exempel på fördelarna med ’Drill down’ är försäljningschefen som har en graf som visar månadens säljstatistik för hela landets regioner. Genom att klicka på stapeln för region syd expanderas grafen till att visa samtliga län inom regionen med en respektive stapel.
Om försäljningschefen vill kan han klicka sig från regionsnivå ända ned till säljaren för att se just dennes resultat. Det finns ett flertal leverantörer av OLAP-verktyg på marknaden där SAS Institute, Cognos, Business Objects och Essbase är några av de starkaste aktörerna.

Teknik
Ett datalager är i regel denormaliserat. Det betyder att mycket av informationen är redundant dvs förekommer på flera ställen i tabellerna. Tabellerna i ett datalager kan därför bli mycket stora med många rader och kolumner. Detta gör det svårt att uppdatera stora datalager i realtid.
Man brukar då ladda datalagret under perioder som det ej används, vanligtvis under natten, med hjälp av så kallade Batchprogram. En mycket viktig del i laddningen av data till datalagret är ’datatvätten’. Det är helt enkelt program som filtrerar data, utför kvalitetstester och lägger till information som fattas.

De två vanligt förekommande datastrukturerna inom datamodellering av datalager är stjärnstrukturen (Star Schema) och snöflingestrukturen (Snowflake Schema). Gemensamt är den så kallade faktatabellen i mitten och den första nivån av kringliggande dimensioner. I snöflingestrukturen har man däremot normaliserat dimensionstabellerna så att de består av fler nivåer.





Stjärnstruktur


Snöflingestruktur

DW-projekt
Ett DW-projekt, eller datalagerprojekt skiljer sig på några punkter från ett vanligt systemutvecklingsprojekt. Eftersom ett datalager är verksamhets-drivet är kraven på verksamheten höga vid införandet av ett nytt datalager eller beslutstödssystem. Bland annat ställs krav på att den mottagande organisationen skall klara av driften och kvalitetsäkringen av datalagret.
Om kvalitén på informationen är dålig blir datalagret värdelöst.
Ett annat viktigt krav är att projektet förankras hos både ledningen och användarna av systemet. Detta är idag en av de vanligaste orsakerna till misslyckade datalagerprojekt.

Mandrillo Consulting har stor erfarenhet av att leda DW-projekt. Vi kan även, som rådgivare, hjälpa Er att fatta rätt beslut vid val av projektmetod, designmetod, teknik och systemleverantör.