A lap 2011. január 15., 09:51-kori változata

Tartalomjegyzék

1 Adatfragmentumok összevezetése

Adatfragmentumok összevezetése

Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...

Előzmények

Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.

internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)

Adatbázis-tervezési lépések

A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.

térbeli hierarchiák (pl. megye, statisztikai régió, ország)
időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
jelenséghierarchiák (pl. mutatószámok csoportjai)

A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...

Egy-személyes feladatvégzés

A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:

a kódszótár előírásait követni kell
fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
1. vagyis kerüljük adatok elhagyását
2. és kerüljük adatok többszörös rögzítését
minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
minden megye csak egy régióhoz tartozzon
minden érték a rájellemző értelmezési intervallumba essen
minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.

Adatállományok integrációja és konszolidációja

Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
Válasszuk ki a második legnagyobb állományt és nyissuk meg.
Ellenőrizzük le az alábbiakat:

azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)
az első eltérés máris az állomány elérési útjának hiányát fogja jelezni
ezt azonnal pótoljuk, vagyis adjuk meg az állomány URL-jét

Másoljuk be fejléc és kihagyott sorok nélkül a kisebb állományt a nagyobb alá.
Majd kezdjük el az összes ismert önellenőrzési lépés újbóli végrehajtását:

ellenőrizzük le, hogy a kódszótár szabályai továbbra is érvényben vannak-e
vizsgáljuk meg, nem keletkeztek-e ellentmondások (azonos meta-adatokkal leírt eltérő értékek)
nem jöttek-e létre redundáns adatsorok (azonos meta-adatokkal leírt azonos értékek)

Tegyünk kísérletet új strukturális rétegek felismerésére: pl. mutatószámcsoportok képzésére. Ennek érdekében hozzunk létre új oszlopot, s erre vonatkozóan minden elvárást rögzítsünk a kódszótárban.
Tegyünk kísérletet az azonnal elemezhető adatrétegek felismerésére, hiszen az adatbázis építésének legfőbb célja, hogy ennek készenléte után azonnal elemezhessük a benne rögzített adatokat...

@@ 4. sor: / 4. sor: @@
 ==Előzmények==
-#Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
+*Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
-#Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
+*Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
-*internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
+#internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
-*papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)
+#papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)
 ==Adatbázis-tervezési lépések==
-#A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
+*A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
-#Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
+*Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
-#Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
+*Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
-*térbeli hierarchiák (pl. megye, statisztikai régió, ország)
+#térbeli hierarchiák (pl. megye, statisztikai régió, ország)
-*időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
+#időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
-*jelenséghierarchiák (pl. mutatószámok csoportjai)
+#jelenséghierarchiák (pl. mutatószámok csoportjai)
-#A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...
+*A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...
 ==Egy-személyes feladatvégzés==
-#A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
+*A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
-#Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
+*Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
-*a kódszótár előírásait követni kell
+#a kódszótár előírásait követni kell
-*fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
+#fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
-**vagyis kerüljük adatok elhagyását
+##vagyis kerüljük adatok elhagyását
-**és kerüljük adatok többszörös rögzítését
+##és kerüljük adatok többszörös rögzítését
-*minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
+#minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
-*minden megye csak egy régióhoz tartozzon
+#minden megye csak egy régióhoz tartozzon
-*minden érték a rájellemző értelmezési intervallumba essen
+#minden érték a rájellemző értelmezési intervallumba essen
-*minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.
+#minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.
 ==Adatállományok integrációja és konszolidációja==
-#Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
+*Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
-#Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
+*Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
-#Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
+*Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
-#Válasszuk ki a második legnagyobb állományt és nyissuk meg.
+*Válasszuk ki a második legnagyobb állományt és nyissuk meg.
-#Ellenőrizzük le az alábbiakat:
+*Ellenőrizzük le az alábbiakat:
-*azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)
+#azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)
-*az első eltérés máris az állomány elérési útjának hiányát fogja jelezni
+#az első eltérés máris az állomány elérési útjának hiányát fogja jelezni
-*ezt azonnal pótoljuk, vagyis adjuk meg az állomány URL-jét
+#ezt azonnal pótoljuk, vagyis adjuk meg az állomány URL-jét
-#Másoljuk be fejléc és kihagyott sorok nélkül a kisebb állományt a nagyobb alá.
+*Másoljuk be fejléc és kihagyott sorok nélkül a kisebb állományt a nagyobb alá.
-#Majd kezdjük el az összes ismert önellenőrzési lépés újbóli végrehajtását:
+*Majd kezdjük el az összes ismert önellenőrzési lépés újbóli végrehajtását:
-*ellenőrizzük le, hogy a kódszótár szabályai továbbra is érvényben vannak-e
+#ellenőrizzük le, hogy a kódszótár szabályai továbbra is érvényben vannak-e
-*vizsgáljuk meg, nem keletkeztek-e ellentmondások (azonos meta-adatokkal leírt eltérő értékek)
+#vizsgáljuk meg, nem keletkeztek-e ellentmondások (azonos meta-adatokkal leírt eltérő értékek)
-*nem jöttek-e létre redundáns adatsorok (azonos meta-adatokkal leírt azonos értékek)
+#nem jöttek-e létre redundáns adatsorok (azonos meta-adatokkal leírt azonos értékek)
-#Tegyünk kísérletet új strukturális rétegek felismerésére: pl. mutatószámcsoportok képzésére. Ennek érdekében hozzunk létre új oszlopot, s erre vonatkozóan minden elvárást rögzítsünk a kódszótárban.
+*Tegyünk kísérletet új strukturális rétegek felismerésére: pl. mutatószámcsoportok képzésére. Ennek érdekében hozzunk létre új oszlopot, s erre vonatkozóan minden elvárást rögzítsünk a kódszótárban.
-#Tegyünk kísérletet az azonnal elemezhető adatrétegek felismerésére, hiszen az adatbázis építésének legfőbb célja, hogy ennek készenléte után azonnal elemezhessük a benne rögzített adatokat...
+*Tegyünk kísérletet az azonnal elemezhető adatrétegek felismerésére, hiszen az adatbázis építésének legfőbb célja, hogy ennek készenléte után azonnal elemezhessük a benne rögzített adatokat...

„Adatvagyon-integráció-konszolidáció” változatai közötti eltérés

A lap 2011. január 15., 09:51-kori változata

Tartalomjegyzék

Adatfragmentumok összevezetése

Előzmények

Adatbázis-tervezési lépések

Egy-személyes feladatvégzés

Adatállományok integrációja és konszolidációja

Navigációs menü

Nézetek

Személyes eszközök

Navigáció

Keresés

Eszközök