Tartalomjegyzék

1 Adatfragmentumok összevezetése

Adatfragmentumok összevezetése

Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...

Előzmények

Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.

internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)

Adatbázis-tervezési lépések

A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.

térbeli hierarchiák (pl. megye, statisztikai régió, ország)
időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
jelenséghierarchiák (pl. mutatószámok csoportjai)

A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...

Egy-személyes feladatvégzés

A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:

a kódszótár előírásait követni kell
fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
- vagyis kerüljük adatok elhagyását
- és kerüljük adatok többszörös rögzítését
minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
minden megye csak egy régióhoz tartozzon
minden érték a rájellemző értelmezési intervallumba essen
minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.

Adatállományok integrációja és konszolidációja

Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
Válasszuk ki a második legnagyobb állományt és nyissuk meg.
Ellenőrizzük le az alábbiakat:

azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)

Adatvagyon-integráció-konszolidáció

Tartalomjegyzék

Adatfragmentumok összevezetése

Előzmények

Adatbázis-tervezési lépések

Egy-személyes feladatvégzés

Adatállományok integrációja és konszolidációja

Navigációs menü

Nézetek

Személyes eszközök

Navigáció

Keresés

Eszközök