Adatbányászat

A Miau Wiki wikiből
A lap korábbi változatát látod, amilyen Igaz István (vitalap | szerkesztései) 2005. november 17., 15:01-kor történt szerkesztése után volt. (Ontológiai modul)

Angol megnevezés: Data Mining

Történeti modul

  • 2000 Adatokat bányásztak az adószedők már az ókorban. A csillagokat figyelő tudósok és horoszkóphívők meg horoszkóp-szélhámosok több évezrede. Adatokat bányásztak a történészek. Azután jöttek a statisztikusok és kiterjesztették ezt az ősi tevékenységet mindenre, ami valamilyen módon adatszerűen kezelhető. Mi akkor új az egészben: kettős. Az első azoknak az egyre nagyobb teljesítőképességű számítógépeknek a használata, amelyek adatok milliárdjait tudják ésszerű időben és költséggel kezelni. A másik azoknak a matematikai-logikai módszereknek a fejlődése, amelyek az adatbányászat céljait szolgálják. Az első ilyen módszerek a statisztikusok kezében születtek és a statisztikusok számára készültek, elsősorban a sokváltozós analízis módszerei, egybeesések, visszatérések, egyidejű és időben eltolt kölcsönhatások szűrése, a hasonló tartalmú adatok csoportosításának és csoportjai felismerésének módszerei. Ezek a szűrő, hasonlóságokat kiemelő eljárások részben már a 100-200 évvel ezelőtti matematikában is ismeretesek voltak, de a számítástechnika tette lehetővé, hogy valódi adattömegeken megbízható módon, jól becsülhető pontossággal lehessen ezeket a műveleteket elvégezni. Lényegében véve arról van szó, hogy feltételezett struktúrákat vizsgálnak az adatokon, azaz keresik az adatok logikai összefüggéseit. Ebben is óriási a haladás, feltételezés-családok vizsgálatában, bizonytalanságok figyelembevételével. Mindez kiegészül olyan tanuló módszerekkel, ember-gép kapcsolatokat segítő eljárásokkal, amelyek e hatalmas esemény- és összefüggés-kutató fegyvertárat kapcsolják. Itt lép be az emberi tudás újra, a módszerek matematikai és számítástechnikai kidolgozása után következik az a különös tapasztalat és szakértelem, ami az adott feladatcsoporthoz tartozó módszereket ki tudja válogatni, és megbízható döntés-előkészítést tud szolgáltatni.


  • 2002 A 90-es években a tárolókapacitások méretének igen erőteljes növekedése, valamint az árak nagymértékű csökkenése miatt az elektronikus eszközök és adatbázisok a hétköznapi életben is mind inkább elterjedtek. Az egyszerű és olcsó tárolási lehetőségek a nyers, feldolgozatlan adatok tömeges méretű felhalmozását eredményezték, ezek azonban közvetlen visszakeresésen és ellenőrzésen kívül egyéb haszonnal nem jártak. Sok helyen a ritkán látogatott adatokból adat temetők (data tombs) alakultak ki, amelyek tárolása költséget jelentett, de hasznot nem hozott.

Ontológiai modul

  • ...

"ez egy" kapcsolattípus:információ

Ellentmondások és vitatott kijelentések modulja

  • ...

Definíciós modul

  • Nagy mennyiségű adat átválogatása, vizsgálata és modellezése annak érdekében, hogy az üzletben vagy kutatásban korábban kiaknázatlan előnyökre tegyünk szert.
  • Üzleti döntéstámogatási módszer, amely segít megtalálni és kiaknázni új üzleti lehetőségeket a nagytömegű adathalmazokban rejlő, nem ismert összefüggések feltárásával.
  • Az adatbányászat nagy mennyiségű adat leválogatásának, feltárásának és modellezésének folyamata.
  • Az adatbányászat eszköz, amely az adatokat versenyelőnnyé változtatja.
*Az adatbányászat olyan, korábban nem ismert összefüggések és információk kinyerése, amelyet később fel lehet használni fontos üzleti döntések meghozatalánál.  
*Olyan eljárások és módszerek összessége, melyek segítségével feltárhatók a vállalatoknál felhalmozódott adatok közt rejlő, korábban ismeretlen összefüggések, rejtett trendek, szabályszerűségek. Célja, hogy az így nyert információt üzleti előnyök, sikerek megalapozására, a döntéshozatal támogatására fordíthassák.   
  • Az adatbányászat segítségével rejtett összefüggéseket fedezhetünk fel nagy mennyiségű adathalmazban. Az adatbányászat azt a nyilvánvaló ellentmondást oldja fel, hogy minél több adattal rendelkezünk, annál bonyolultabb és időigényesebb ezt hatékonyan elemezni és értékes következtetéseket levonni belőlük.
*Ember számára emészthető, hasznos információk, rejtett összefüggések kinyerése nagy adathalmazokból. 
*Az adatbányászat a nagy adatbázisokban rejlő rejtett, és kevésbé rejtett információk felismerése és kinyerése. Az adatbányászat tehát egyfajta adatelemzés, melynek más eljárásokhoz hasonlóan van módszertana, és vannak eszközök, melyek hozzá köthetőek.
  • A vállalkozások egyre több és több adatot rögzítenek és tárolnak, de ezek többségét a napi munkán kívül szinte semmire sem használják. Ez a hatalmas adatmennyiség egy olyan vagyon, melyben hasznosítható összefüggések, tendenciák rejlenek. Ezeknek az összefüggéseknek a feltárására alkalmas az adatbányászat.

Tesztkérdések modul

  • Hol jelennek meg először az adatbányászati eszközök?
Az adatbányászati eszközök először a piaci szegmensekben jelennek meg.   
 
  • Mi az adatbányászat célja?

Az adatbányászat célja: előre nem látható összefüggések, törvényszerűségek felfedezése üzleti előny megszerzése éredekében.

  • Az adatbányászat kész megoldás-e egy-egy problémára?

Nem, az adatbányászat egy technológia és nem egy kész megoldás egy-egy problémára, emiatt az információ szolgáltató architektúrába kell beilleszteni.

  • Az adatbányászat mekkora adatmennyiséggel birkózik meg?
Az adatbányászati megoldások bármekkora adatmennyiséggel megbirkóznak,gazdaságosan felhasználva a rendelkezésre álló hardver forrásokat. 
 *Miben nyújtanak segítséget a feldolgozott adathalmazok és a megfelelő adatbányászati módszerekkel elemzett adatok?
   Más konkrét sratégiai és egyedi üzleti döntések előkészítésében nyújtanak segítséget.  

Más konkrét sratégiai és egyedi üzleti döntések előkészítésében nyújtanak segítséget.

  • Mekkora üzleti hasznot hoznak az adatbányászati modellek által adott becslések a cégnek?
 Az adatbányászat valódi értéke nem abban rejlik, hogy 100 százalékosan megbízható eredményt produkál, hanem sokkal inkább abban, hogy segítségével mekkora többletnyereséget vagy költség csökkenést érhetünk el. Például egy direkt marketing levél kiküldésénél lehet, hogy a modell segítségével kijelölt ügyfélszegmensnek csak 5%-a fog válaszolni, de ez nagyon nagy szám, ha a modell alkalmazása nélkül előálló 2.5 %-os válaszadási arányhoz viszonyítjuk.

Ajánlott irodalmak modulja

  • ...

Irodalom:

J. Han, M. Kamber: Adatbányászat, PANEM, Budapest, 2004. Bodon Ferenc, Lukács András: Adatbányászat, Informatikai algoritmusok. 2. kötet, 33. fejezet, ELTE Eötvös Kiadó, Budapest, 2005. Bodon Ferenc: Adatbányászati algoritmusok, (tanulmány), Budapest, 2004. http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/adatbanyaszat.pdf J.D.Ullman: Datamining, CS345 Lecture Notes, Stanford University, USA, 2000. (http://www-db.stanford.edu/~ullman/mining/allnotes.pdf ) G. Chang, M.J.Healey, J.A.M. McHugh, J.T.L. Wang: Mining the World Wide Web, Kluwer Academic Publisher, 2001. Usama M. Fayyadm G.P.Shapiro, P. Smyth, R. Uthurusamy: Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, 1996. P. Adriaans, D. Zantinge: Adatbányászat, PANEM, Budapest, 2002.