Adattárház
Angol megnevezés: Datawarehouse
Tartalomjegyzék
Történeti modul
60-as évek: Executive Information Systems (EIS)
• maiframe környezet, operatív rendszereken alapuló statikus lekérdezések, minőségi információszolgáltatás döntéshozóknak • az OLTP környezeten belüli modulok, egységek
80-as évek: Management Information Systems (MIS)
• leginkább statikus beszámológenerálás • hiearchiaszintek bevezetése a mutatószámokhoz (lefúrás, roll-up lehetséges) • kliens-szerver környezet, GUI, Windows, Apple
1992: W.H.Inmon bevezeti az adattárház fogalmát úttörő munkájával
• redundáns adattárolás, a forrásrendszerektől elválasztva • analízis célú adattárolású
1993: OLAP célok, követelményrendszer bevezetése (E.F.Codd)
• dinamikus, multidimenzionális analízis
Ontológiai modul
- "ez egy" kapcsolattípus:
- Vállalati környezet
- Vállalati adathalmazok, döntéstámogatás
- Információszükségleti hierarchia
- "van neki, része a szócikknek" kapcsolattípus:
- Data mart (adatpiac)
- Operational Data Store (ODS)
- Extraprise Data Warehouse
- Virtuális adattárház
- "a szócikk része valaminek (a szócikkel egyenrangú fogalmak)" kapcsolattípus:
- Adatbázis
Ellentmondások és vitatott kijelentések modulja
- Nem találtam ellentmondást a címszó terén végzett kutatásaim során...
Definíciós modul
Idézet Ralph Kimballtól: Data Warehouse: "The conglomeration of an organization's data warehouse staging and presentation areas, where operational data is specifically structured for query and analysis performance and ease-of-use." Az adattárház fogalma itt tehát egy adott szervezet azon adatgyűjtő és szolgáltató részeit foglalja magában, ahol a működési adatokat újrastrukturálják riportkészítési, jó teljesítményű és egyszerűen kezelhető elemzésekhez. Kimball ezen definícióját főleg azért szokták kedvelni és idézni, mert sok mindent nem határoz meg, pl. az adattárház nem feltétlenül döntéstámogatási célú. Ebből átmenetként foghatjuk fel a következő változatot (már nem Kimballtól), mely az adattárházat technológiák gyűjteményének definiálja: "A data warehouse is a collection of technologies aimed at enabling the knowledge worker (executive, manager, analyst) to make better and faster decisions."
Kimball az adattárházat máshol egyszerűbben a vállalati tranzakciós adatok egy speciális, elemzési és beszámoló-készítési célra átstrukturált változatának tartja, egy speciális adatbázisnak. Ez az adatbázisként való megközelítés már csak egy pontatlanabb változata Bill Inmon általánosan elfogadott és az irodalomban leginkább idézett definíciójának: "A data warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management's decisions."
Nézzük végig az említett (elemzési céloknak alárendelt) jellemzőket!
Subject oriented (tárgyorientált, tematikus, esetleg témaorientáltnak is szokás fordítani)
Hagyományosan az alkalmazásainkat annak funkcióit, feladatait szem előtt tartva tervezzük, azok köré építjük. Az adattárház tárgy-orientáltságát, tematikus felépítését ehhez képest olyan értelemben szokás használni, miszerint most adott tárgyterületek köré, a meglévő és kapcsolódó adatokat szem előtt tartva ("data driven") tervezünk. Példaként nézzünk egy vállalatot, aki kábeltévés szolgáltatást nyújt. Hagyományos rendszerei megvalósítanak sok feladatot, a számlázás folyamatát, a beszerzést, a karbantartást és így tovább. Minden ilyen alkalmazás támogatott valamilyen saját adathalmazzal. Az adattárház építésénél azonban szeretnénk a meglévő adatokat a vevő szerint csoportosítva, összegyűjtve kezelni, vagy más hasonló tárgyterület köré csoportosítva látni (mint például az adás-kimaradások). Az adattárházban minden adatunkat ezek köré a tárgyterületek köré csoportosítjuk, gyűjtjük. Megjegyzem gyakran ezek a forrásrendszerek funkcióinak központi szereplői, mint pl. számlázási rendszerből a számlák, a raktárkészlet-nyilvántartásból a termékek, stb.
Integrated (integrált)
Az előző pontban említett tárgyorientált, adatvezérelt tervezéshez szorosan kapcsolódik az integráltság fogalma a következő értelemben: az adattárház az említett tárgyterületekhez kapcsolódó adatokat az érintett adatforrásokból szabványosított formára alakítva egy helyre gyűjti és egységbe rendezve kezeli.
Nonvolatile (nem illékony, vagyis tartós)
Jelenti ez azt, hogy az adattárházban jelen lévő adatok alapvetően változatlanok. Ha a forrásrendszer adatai változnának, az adattárház a változást követi, de úgy, hogy a bentlévő adatot megfelelő időbélyeggel (érvényességi idővel) látja el, majd felveszi az új állapotot is, megfelelő időbélyeggel. A bekerült adatok tehát tartósan meg is maradnak.
Time variant (időfüggő)
A forrásrendszereink adatai nagyrészt egy adott időre vonatkoznak, a jelen pillanatra, tehát, az adott érvényes állapotokat tárolják. Ehhez képest a megcélzott elemzések leginkább történeti adatokon és adatok idősorain használatosak. Az adattárház ennek megfelelően az adatokat időfüggően, az adatokat időpontok és időintervallumok szerint tárolják és kezelik, a forrásrendszerek változását nyomon követve. Például, képzeljünk el egy raktárkészlet nyilvántartást. Ennek adatai ha megjelennek az adattárházban, ott nyomonkövethetők és elemezhetők a raktárkészlet változásai.
Tesztkérdések modul
- Az adattárházak alapvető célja az elemzésekhez való információ biztosítása? (igen)
- Adatait a tranzakciós forrás-rendszerekkel együtt tárolja? (nem)
- Adatbázis-struktúrája a lekérdezés szempontjaira optimalizált? (igen)
- Nagy mennyiségű adatok tárolására alklamas? (igen)
- Az adatok történetiségét is reprezentálja? (igen)
- Képes a különböző alkalmazások adatait integrálni egységesen megjeleníteni? (igen)
- Az üzleti információk egységes, aggregát nézetét nem biztosítja a vállalat összes elemzője és döntéshozója számára! (hamis)
- Szűk információforrást biztosít az elemzésekhez, értékelésekhez? (nem)
- Vállalati szintű átfogó, integrált adatokat tartalmaz? (igen)