„Adatvagyon-integráció-konszolidáció” változatai közötti eltérés
A Miau Wiki wikiből
a (→Adatállományok integrációja és konszolidációja) |
a (→Adatfragmentumok összevezetése) |
||
4. sor: | 4. sor: | ||
==Előzmények== | ==Előzmények== | ||
− | + | *Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák). | |
− | + | *Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl. | |
− | + | #internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések) | |
− | + | #papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh) | |
==Adatbázis-tervezési lépések== | ==Adatbázis-tervezési lépések== | ||
− | + | *A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket. | |
− | + | *Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram) | |
− | + | *Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl. | |
− | + | #térbeli hierarchiák (pl. megye, statisztikai régió, ország) | |
− | + | #időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap) | |
− | + | #jelenséghierarchiák (pl. mutatószámok csoportjai) | |
− | + | *A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet... | |
==Egy-személyes feladatvégzés== | ==Egy-személyes feladatvégzés== | ||
− | + | *A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat. | |
− | + | *Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni: | |
− | + | #a kódszótár előírásait követni kell | |
− | + | #fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk | |
− | + | ##vagyis kerüljük adatok elhagyását | |
− | + | ##és kerüljük adatok többszörös rögzítését | |
− | + | #minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen | |
− | + | #minden megye csak egy régióhoz tartozzon | |
− | + | #minden érték a rájellemző értelmezési intervallumba essen | |
− | + | #minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel. | |
==Adatállományok integrációja és konszolidációja== | ==Adatállományok integrációja és konszolidációja== | ||
− | + | *Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D | |
− | + | *Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve. | |
− | + | *Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal. | |
− | + | *Válasszuk ki a második legnagyobb állományt és nyissuk meg. | |
− | + | *Ellenőrizzük le az alábbiakat: | |
− | + | #azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével) | |
− | + | #az első eltérés máris az állomány elérési útjának hiányát fogja jelezni | |
− | + | #ezt azonnal pótoljuk, vagyis adjuk meg az állomány URL-jét | |
− | + | *Másoljuk be fejléc és kihagyott sorok nélkül a kisebb állományt a nagyobb alá. | |
− | + | *Majd kezdjük el az összes ismert önellenőrzési lépés újbóli végrehajtását: | |
− | + | #ellenőrizzük le, hogy a kódszótár szabályai továbbra is érvényben vannak-e | |
− | + | #vizsgáljuk meg, nem keletkeztek-e ellentmondások (azonos meta-adatokkal leírt eltérő értékek) | |
− | + | #nem jöttek-e létre redundáns adatsorok (azonos meta-adatokkal leírt azonos értékek) | |
− | + | *Tegyünk kísérletet új strukturális rétegek felismerésére: pl. mutatószámcsoportok képzésére. Ennek érdekében hozzunk létre új oszlopot, s erre vonatkozóan minden elvárást rögzítsünk a kódszótárban. | |
− | + | *Tegyünk kísérletet az azonnal elemezhető adatrétegek felismerésére, hiszen az adatbázis építésének legfőbb célja, hogy ennek készenléte után azonnal elemezhessük a benne rögzített adatokat... |
A lap 2011. január 15., 09:51-kori változata
Tartalomjegyzék
Adatfragmentumok összevezetése
Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...
Előzmények
- Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
- Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
- internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
- papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)
Adatbázis-tervezési lépések
- A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
- Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
- Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
- térbeli hierarchiák (pl. megye, statisztikai régió, ország)
- időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
- jelenséghierarchiák (pl. mutatószámok csoportjai)
- A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...
Egy-személyes feladatvégzés
- A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
- Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
- a kódszótár előírásait követni kell
- fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
- vagyis kerüljük adatok elhagyását
- és kerüljük adatok többszörös rögzítését
- minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
- minden megye csak egy régióhoz tartozzon
- minden érték a rájellemző értelmezési intervallumba essen
- minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.
Adatállományok integrációja és konszolidációja
- Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe: http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
- Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
- Definiáljunk egy új oszlopot az egyes állományok elérési útjának megadása érdekében és töltsük is fel az alapadatok esetére is azonnal.
- Válasszuk ki a második legnagyobb állományt és nyissuk meg.
- Ellenőrizzük le az alábbiakat:
- azonosak-e az oszlopfejlécek (pl. HA()-függvény segítségével)
- az első eltérés máris az állomány elérési útjának hiányát fogja jelezni
- ezt azonnal pótoljuk, vagyis adjuk meg az állomány URL-jét
- Másoljuk be fejléc és kihagyott sorok nélkül a kisebb állományt a nagyobb alá.
- Majd kezdjük el az összes ismert önellenőrzési lépés újbóli végrehajtását:
- ellenőrizzük le, hogy a kódszótár szabályai továbbra is érvényben vannak-e
- vizsgáljuk meg, nem keletkeztek-e ellentmondások (azonos meta-adatokkal leírt eltérő értékek)
- nem jöttek-e létre redundáns adatsorok (azonos meta-adatokkal leírt azonos értékek)
- Tegyünk kísérletet új strukturális rétegek felismerésére: pl. mutatószámcsoportok képzésére. Ennek érdekében hozzunk létre új oszlopot, s erre vonatkozóan minden elvárást rögzítsünk a kódszótárban.
- Tegyünk kísérletet az azonnal elemezhető adatrétegek felismerésére, hiszen az adatbázis építésének legfőbb célja, hogy ennek készenléte után azonnal elemezhessük a benne rögzített adatokat...