„Adatvagyon-integráció-konszolidáció” változatai közötti eltérés

A Miau Wiki wikiből
a (Egy-személyes feladatvégzés)
a (Adatállományok integrációja és konszolidációja)
30. sor: 30. sor:
  
 
==Adatállományok integrációja és konszolidációja==
 
==Adatállományok integrációja és konszolidációja==
 +
#Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe:
 
http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
 
http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D
 +
#Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
 +
#Válasszuk ki a második legnagyobb állományt.

A lap 2011. január 15., 09:39-kori változata

Adatfragmentumok összevezetése

Az alábbi, (egytáblás) adatvagyon-gazdálkodási szabványokat minden informatikát tanuló Hallgató rutinszerűen kell, hogy értse és használja. Egyetlen szakdolgozatnak sem lenne szabad megszületnie az ott feldolgozott adatok korrekt kezelése nélkül...

Előzmények

  1. Annak érdekében, hogy egy adatbázist létre hozassunk, elsőként meg kell határozni az ebben tárolni kívánt adattartalmakat (vö. APEH-statisztikák).
  2. Az adattartalmak rögzítése után ezek nyers állapotait rendelkezésre kell bocsátani pl.
  • internetes kereséssel (vö. képernyőképek, html-másolatok, fájl-mentések)
  • papír-alapú források esetén beszkennelt (lehetőség szerint karakterfelismeréssel támogatott) állományok (vö. http://miau.gau.hu/temp/apeh)

Adatbázis-tervezési lépések

  1. A nyers adatok vizuális értelmezése és az elemzési célok alapján meg kell határozni milyen dimenziókra (egytáblás alapesetben milyen oszlopokra) van szükség az adatbázisban, azaz milyen meta-adatokkal kívánunk leírni egy-egy megfigyelt, mért értéket.
  2. Alapértelmezés szerint: sorszám, objektum, attribútum, érték, mértékegység, forrás, dátum (rögzítés), rögzítette (monogram)
  3. Amennyiben a nyers tartalmak ennél több struktúrát engednek feltárni, akkor ezek használata kötelező: pl.
  • térbeli hierarchiák (pl. megye, statisztikai régió, ország)
  • időbeli hierarchiák (pl. év, félév, negyedév, hónap, nap)
  • jelenséghierarchiák (pl. mutatószámok csoportjai)
  1. A dimenziók/oszlopok meghatározása után illik, de nem mindig lehetséges azonnal megalkotni a kódszótárt, mely tartalmazza, milyen oszlopban milyen értékkészlet fordulhat elő. A kódszótár kialakítása lehet többlépcsős, iteratív, ill. végső soron utólagos folyamat is, bár ez esetben a potenciális revíziók száma irracionálisan nagy is lehet...

Egy-személyes feladatvégzés

  1. A kódszótár és a nyers adatok ismeretében az elsődleges feladat a cél-struktúrába belekényszeríteni a nyers tartalmakat.
  2. Ennek során számos hiba léphet fel, melyeket folyamatos önellenőrzéssel kell feltárni:
  • a kódszótár előírásait követni kell
  • fel kell készülni arra, hogy a kódszótár alapján teljes kombinatorikai terekben gondolkodjunk
    • vagyis kerüljük adatok elhagyását
    • és kerüljük adatok többszörös rögzítését
  • minden mutatószámnak lehetőség szerint csak egyetlen egy mértékegysége legyen
  • minden megye csak egy régióhoz tartozzon
  • minden érték a rájellemző értelmezési intervallumba essen
  • minden részhalmaz (pl. megyék) összege legyen egyenlő ugyanazon halmaz más típusú felbontása (pl. statisztikai régiók) után kapott összegekkel, vagy amennyiben adott a mindösszesen (HU) értékekkel.

Adatállományok integrációja és konszolidációja

  1. Az egy-személyes adatrögzítés eredményeit másoljuk fel egy közös helyre, s rendezzük ezeket méretük szerint sorrendbe:

http://miau.gau.hu/temp/apeh/strukturalt_adatok_uj/?C=S;O=D

  1. Válasszuk ki a legnagyobb méretű állományt, mely átlagos esetben a legtöbb rekordot/sort kell, hogy tartalmazza immár egységes ellenőrzési elvek alapján jónak minősítve.
  2. Válasszuk ki a második legnagyobb állományt.