„Adatvagyon-integráció-konszolidáció” változatai közötti eltérés
A Miau Wiki wikiből
a (→Adatbázis-tervezési lépések) |
a (→Egy-személyes feladatvégzés) |
||
18. sor: | 18. sor: | ||
#A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet... | #A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet... | ||
==Egy-személyes feladatvégzés== | ==Egy-személyes feladatvégzés== | ||
+ | #A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat. | ||
+ | #Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni: | ||
+ | *a kódszótár előírásait követni kell | ||
+ | *fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk | ||
+ | **vagyis kerüljük adatok elhagyását | ||
+ | **és kerüljük adatok többszörös rögzítését | ||
+ | *minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen | ||
+ | *minden megye csak egy régióhoz tartozzon | ||
+ | *minden érték a rájellemző értelmezési intervallumba essen | ||
+ | *minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel. | ||
==Adatállományok integrációja és konszolidációja== | ==Adatállományok integrációja és konszolidációja== | ||
http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D | http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D |
A lap 2011. január 15., 09:37-kori változata
Tartalomjegyzék
Adatfragmentumok összevezetése
Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...
Előzmények
- Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
- Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
- internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
- papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)
Adatbázis-tervezési lépések
- A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
- Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
- Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
- térbeli hierarchiák (pl. megye, statisztikai régió, ország)
- időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
- jelenséghierarchiák (pl. mutatószámok csoportjai)
- A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...
Egy-személyes feladatvégzés
- A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
- Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
- a kódszótár előírásait követni kell
- fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
- vagyis kerüljük adatok elhagyását
- és kerüljük adatok többszörös rögzítését
- minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
- minden megye csak egy régióhoz tartozzon
- minden érték a rájellemző értelmezési intervallumba essen
- minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.