Adatvagyon-integráció-konszolidáció
A Miau Wiki wikiből
A lap korábbi változatát látod, amilyen Pitlik (vitalap | szerkesztései) 2011. január 15., 09:41-kor történt szerkesztése után volt. (→Adatállományok integrációja és konszolidációja)
Tartalomjegyzék
Adatfragmentumok összevezetése
Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...
Előzmények
- Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
- Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
- internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
- papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)
Adatbázis-tervezési lépések
- A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
- Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
- Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
- térbeli hierarchiák (pl. megye, statisztikai régió, ország)
- időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
- jelenséghierarchiák (pl. mutatószámok csoportjai)
- A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...
Egy-személyes feladatvégzés
- A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
- Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
- a kódszótár előírásait követni kell
- fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
- vagyis kerüljük adatok elhagyását
- és kerüljük adatok többszörös rögzítését
- minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
- minden megye csak egy régióhoz tartozzon
- minden érték a rájellemző értelmezési intervallumba essen
- minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.
Adatállományok integrációja és konszolidációja
- Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
- Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
- Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
- Válasszuk ki a második legnagyobb állományt és nyissuk meg.
- Ellenőrizzük le az alábbiakat:
- azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)