Mesterséges intelligencia alapú prognosztikai modulok adaptálása az EU/SPEL-Hungary rendszerhez az alapadatbázisok konzisztenciájának egyidejû ellenõrzésével

Mesterséges intelligencia alapú prognosztikai modulok adaptálása az EU/SPEL-Hungary rendszerhez az alapadatbázisok konzisztenciájának egyidejû ellenõrzésével
(OTKA F030664 sz. pályázat)

Az események rövid összefoglalása:

Az elsõ lépcsõben (1999 nyara) sikeresen megtörtént a SPEL adatbázis aktuális változatának, ill. a második lépcsõben az 1999-ig a MSZR-munkacsoport segítségével gyûjtött magyar adatok átvétele a bonni egyetem Agrárpolitikai Intézetétõl (IAP), mely intézmény a SPEL-rendszer kutatási felelõse. A második lépcsõben (1999 õsze) kapott változat tartalmazza az IAP FAIR-projektje keretében - korábbi közremûködésünkkel - gyûjtött, s az EU-nak lejelentett magyar adatbázist is, mely a hazai adatvagyon-gazdálkodás "zavarai" miatt itthon hivatalosan nem érhetõ el.
Klasszikus statisztikai, DEA-alapú és szakértõi ellenõrzésekkel konzisztencia (ellentmondás-mentességi) és logikai szempontból megvizsgálásra került az adatbázis. A vizsgálat eredményei szerint:
az adatok egy része (pl. NPK, mész) több EU-tagállam esetében - a nyílt szakmai titkoknak megfelelõen - nem primer statisztikák alapján kerül feltöltésre, hanem olyan szakértõi becslésekkel, melyek egyértelmû trend-jellegû összefüggésekre támaszkodnak, így elõrejelzési szempontból tovább-feldolgozást nem igényelnek,
a SPEL adatbázis belsõ rendszere (pl. FH-számítás elvei) - az elvárásoknak megfelelõen - átláthatóak, következetesek
a DEA elemzések alapján bizonyos országok hatékonysági mutatóinak alakulása módszertanilag nehezen magyarázható lefutást követ, mely feltehetõen az adatok inkonzisztenciájára utal (visszaigazolva ezzel az EUROSTAT további minõségbiztosítási elvárásainak szükségszerûségét)
a hivatalos magyar adatok továbbra is számos konzisztencia-ellenõrzésre szorulnak (pl. vetõmag-, vegyszerfelhasználás, takarmánygazdálkodás, stb.)
Az elkészült, jelentõs mennyiségû elõrejelzési célú futtatás eredményei:
a klasszikus (statisztikai) elõrejelzések pontossága mesterséges intelligenciák (MI) felhasználásával mindenkor felülmúlható a túltanulás elkerülésével,
az elérhetõ találati arányok (elõrejelzési pontosság) az elõrejelzendõ jelenség bármely küszöbértéke (50-50%) esetén legalább 70%-os találati arányt biztosít, ill. az aránytalan következmény-megoszlást mutató esetgyûjtemények mellett is a javulásra rendelkezésre álló intervallumban min. 20%-os pozitív elmozdulás kalkulálható,
a klasszikus eljárások esetenként még a monoton stratégiák (mindig minden nõ/csökken) által sugallt minimális szintet sem képesek elérni, mert ezek (szemben a MI eljárásokkal) nem maguktól értetõdõen képesek pl. tetszõleges célfüggvénynek megfelelni, logikai és numerikus függvényrészleteket integrálni, tetszõleges magyarázó változó hatását fokozatosan integrálni,
A használt MI-k tulajdonságai:
EXCEL felületen, (aktív) makrók és modulok nélkül futtatható
lehetõvé teszi az emberi hipotézisek (összefüggéstípusok, célfüggvény-verziók) gyors, párhuzamos vizsgálatát és
a változók körének automatikus szûkítésén keresztül újszerû felismerése elõsegítését,
a keletkezett megoldások (white box modellstruktúrák) kiajánlását önállóan, a fejlesztõi környezettõl függetlenül futtatható formában
hybrid (score-rendszereket, azaz induktív szakértõi rendszerelemek numerikus összevonását) megoldásokat szállítva.
Alkalmazási lehetõségek: Az OTKA-megbízás elnyerése óta számos kapcsolódó projekt alakult ki az innen nyerhetõ módszertani és számszerû eredmények hasznosítására (EU - IDARA, OMFB-IKTA, FVM K+F, FVM-MIVIR, FVM-Vidékfejlesztés, MSZR-munkacsoport, stb.)

Eredmények

1. A SPEL-adatbázis rövid ismertetése

Ebben a pontban az feldolgozott adatbázis ismertetése mellett felvázolásra kerülnek a rendelkezésre álló alapadatokból következõ potenciális kérdéstípusok. A SPEL (Sektorales Produktions- und Einkommensmodell für die Landwirtschaft) az EUROSTAT megbízására a bonni egyetem Agrárpolitikai Intézetének koordinálásával készül 1980 óta. A konzisztens (ellentmondásmentes) adatbázis építése mellett a rendszer fokozatosan kibõvült rövid- és középtávú elõrejelzési modulokkal, melyek lényegében trend-alapú eredményekre vezetnek. Az adatbázis sorai egyrészt a mezõgazdasági termékek körébe sorolt tételek (növényi és állati termékek), valamint az ezek elõállításához szükséges (naturális és/vagy monetáris) ráfordítások. Az oszlopok a termékek elõállításáért felelõs ágazatokat, ill. a termék-felhasználás és ráfordítás-keletkezés pozícióit adják meg. A modell négy negyedes szerkezete (termék-keletkezés, termék-felhasználás, ráfordítás-felhasználás, ráfordítás keletkezés) hasonlít az ÁKM ismert logikájához, vagyis a negyedek egymással mérlegszerû kapcsolatban állnak. Az adatbázis a 14 tagország (Luxemburg hiányában), naptári évek szerint kimutatott adatait tartalmazza 1973-tól 1998-ig, a naturális adatok mellett szükség szerint nemzeti valutában, ill. ECU-ben. Az adatbázis oszlopaiban a jövedelem, ill. a fedezeti hozzájárulás képleteialapján számított adatok találhatók meg. A SPEL adatokat hivatalosan az EUROSTAT adja ki pl. CD-n. A CD-verzió intelligens, multidimenziós forgatási és szokásos szûrési feltételek alapján pl. EXCEL értelmezhetõ táblázatokat képes elõállítani. Az adatok folyamatosan ellenõrzésre és karbantartásra kerülnek.

Az EU adatai mellett - köszönhetõen az elmúlt évek német-magyar együttmûködésének - ugyan még nem hivatalosan, de részleges magyar adatok is rendelkezésre állnak, melyek az IAP FAIR projekt keretében kerültek a SPEL-rendszerbe adaptálásra. A magyar adatok 1990-tõl 1998-ig tartalmaznak hasonló, de lényegesen hiányosabb adatokat, mint a klasszikus SPEL-táblák. A magyar adatok további feltöltése, ellenõrzése jelenleg is tervben van, de források és koordináció hiányában a munka szünetel. Így a FAIR projektjelentés mellékleteként rendelkezésre álló adatsor tekinthetõ ma az egyetlen hivatalos és hozzáférhetõ verziónak.

A SPEL-rendszerben a majdnem három évtizedet felölelõ idõsorok és az egymással ok-okozati kapcsolatban álló (országonként egységes módszertan szerint képzett) adatok számos elõrejelzési, elemzési kérdést engednek megfogalmazni:

várható terméseredmények éven belül, és x év múlva,
várható ráfordítás-felhasználás x év múlva,
várható áralakulás x év múlva,
várható termelési szerkezet változás x év múlva,
az alapadatokból számított (hatékonysági, hasonlósági) mutatószámok alakulása x év múlva,
az alapadatokból bonyolult módon számított (hatékonysági, hasonlósági) mutatószámok, szakértõi vélemények reprodukálása átlátható modellekkel.

A kutatási megbízás keretében az elsõ évben vizsgált jelenségek a növénytermesztési adatbázison történetek, s az ágazati szintû energia felhasználás vizsgálatával már kapcsolódási pontot adnak a 2000. évre tervezett feladatok számára is.

2. DEA-eredmények a konzisztenciát illetõen

E helyen - eltekintve a DEA módszer szabatos leírásától (vö. Bunkóczi, Pitlik, 1999) - csak az alkalmzás legfontosabb tulajdonságait célszerû ismertetni. A Data Envelopment Analysis módszere pl. a búza-terméseredmény (y, kg/ha) és az ezt meghatározó technológiai lépések (x_i - jelen esetben NPK, mész kg/ha, ill. energia ECU/ha) alapján képes a leghatékonyabb (output-input arányokat mutató) objektumok (oszág-év) kijelölése nyomán a többit ezekhez hasonlítva rangsorolni. A végzett számítások egyrészt hektáronként, másrészt országos összes termelési és ráfordítási volumenek alapján az alábbi ábrákhoz hasonló hatékonyság-változási idõsorokra vezettek. Ezen vizsgálatok egyrészt a DEA számításmenet belsõ logikájának feltérképezését, másrészt azonban az alapadatokban rejlõ esetleges értelmezési zavarok (inkonzisztenciák) feltárását támogatják. Mint látható pl. Belgium esetében az országos (Adatsor1) és a fajlagos (Adatsor2) adatokból számított hasonlóság együttfutása megkérdõjelezhetetlen. Ezzel szemben áll pl. Portugália (és a köztudottan bizonytalan agrárstatisztikai minõséggel rendelkezõ Görögország) esete, ahol is egy adott évtõl kezdõdõen az adatsorok egyre nagyobb amplitúdóval térnek el egymástól, s végül ellentétes trendekre vezetnek, mely jelenség a DEA belsõ logikájából nem magyarázható egyértelmûen. Így felvetõdik az inkonzisztencia gyanúja. (Hasonlóan érzékeny torzulások alakulnak ki nem plauzibilis - pl. mértékegység-tévesztést mutató - adatok esetén is.)

Mint látható, a hatékonyság alakulása meglehetõsen szélsõséges mintázatokat is követhet, melyek elõrejelezhetõségének vizsgálata érdekes módszertani feladatként jelentkezik, és az alkalmazás szintjén azért fontos, mert pl. a SAPARD programok/projektek monitorozandó ígérvényeinek árnyalását teszik lehetõvé (pl. a túlvállalások elkerülésével, ill. az ingadozások betervezése révén).

Az elemzések nyomán elmondható tehát, hogy a magyar adatokra tervezett konzisztencia-ellenõrzésnek sokszínûnek és alaposnak kell lennie, hiszen az adatfeldolgozás eredményeként kapott érvek csak akkor szolgálhatják az hazai érdekek hatékony képviseletét, ha megkérdõjelezhetetlenek (ill. legalább az EU-tagországok hitelességi normáinak megfelelnek). Informális szakértõi véleményekre támaszkodva kijelenthetõ, hogy az EU is tisztában van azzal, hogy az adatszolgáltatók egyéb érdekei miatt a feldolgozásra kapott alapadatok további finomításra szorul(hat)nak. A magyar adatok jelenleg tehát csak részleges konzisztencia-vizsgálatokon estek át az országos projektkoordináció hiányában.

3. DEA-szimuláció WAM eljárással

Abban az esetben, ha az elõzõ pontban felvázolt elemzést ki akarnánk terjeszteni újabb objektumokra (pl. magyar adatokra), akkor a jelenlegi megoldás újrafuttatására lenne szükség. Ez az LP-jellegû megoldás hosszas, bonyolult és Internetes kiajánlásra nem feltétlenül alkalmas.

Így - idézve a környezeti kapcsolatok részben már kifejtetteket - "az OTKA projekt keretében ennek a hasznos eredményeket adó módszernek kétféle MI-alapú megközelítését is érdemesnek tûnt felvállalni:

egyrészt szükség van az eredmények web-re való kiajánlhatósága miatt arra, hogy már meglévõ klasszikus módon számított DEA rangsorba egy újabb objektumot be lehessen illeszteni,
másrészt hasznosnak tûnik szolgáltatási szempontból, ha a klasszikus DEA lépések helyett egy ennél sokkal gyorsabb és hasonlóan jó eredményt adó alternatív eljárás áll rendelkezésre, mely nélkülözni tudja az LP-jellegû számításokat."

Mielõtt a kapott eredmények ismertetésre kerülnek szükséges az alkalmazott módszerrõl, a WAM (weight & activity model-rõl) röviden szólni (vö. Pitlik, 1993; ill. Monori, 1997; Wojcicka, 1998; Farkas, 1996). A WAM egy induktív szakértõi rendszereket (hibrid rendszereket) EXCEL-ben, programozás nélkül is elõállítani képes módszertan (lépéssor), mely átlátható szerkezete és asszociatív vezérelhetõsége miatt jól oktatható, s egyedi fejlesztések alapjául szolgál. A WAM egyike az emberi gondolkodási mintákat algoritmikus formában legegyszerûbben visszatükrözni képes eljárásoknak (vö. neuronális hálók, Wojcicki, 1998). A WAM így egyben CBR (case-based reasoning)-nek is tekinthetõ. Fontos kiemelni, hogy a WAM - szemben az alapvetõen black box jellegû, teljesen vagy nagy részben automatizált függvényépítési eljárásokkal (vö. generátor modellcsalád, Pitlik, 1993; Pásztor, 1995) - a felhasználó által intuitívan/heurisztikusan definiált, viszonylag szûk - bár párhuzamos egyszerre több - mozgástérben már csak a magyarázó változók elhagyását/bevonását, a skála-transzformációk (logikai mûveleteken keresztüli) manipulálását és érzékeny paraméterkombinációk feltárását végzi. A WAM - Excel-ben és programozás nélkül - nem képes tetszõleges és automatikus forráskód-építésre, azonban a felhasználói hipotézisek teljes körét képes lépésrõl lépésre követni, így adva lehetõséget tetszõleges számú magyarázó tényezõ és tetszõlegesen helyes, de tovább finomítandó külsõ megoldás egyedi kezelésére/pontosítására. A WAM nem csak a kapott összefüggések szabad definiálásában, hanem a célfüggvény szabad és komplex megadásában is szabad kezet ad a felhasználónak - szemben a piacon ma ismert szoftveres megoldásokkal. A WAM - a célfüggvényen keresztül vezérelve - képes numerikus és/vagy nem metrikus becslések elkészítésére. A legegyszerûbb WAM eredményként egy olyan viszonylag egyszerû logikai és numerikus elemeket ötvözõ megoldás jön létre, mely megadja:

mely magyarázó változók kerültek bevonásra az összefüggésbe,
ezek milyen küszöbértékek esetén (aktivitások),
milyen súllyal hatnak,
a súlyok, mint pontszámok összeadása révén kialakuló becslési értékekre.

A WAM lépései - kellõ Excel-alapismeret birtokában - néhány óra alatt oktathatók és elsajátíthatók. A hatékony alkalmazás azonban egy fajta készséget kíván meg, szemben a függvény-építést magasabb szinten automatizáló (patent?-) megoldásokkal. A kapott eredmények magyarázhatósága (white box) és web-es megjeleníthetõsége (Pásztor et al., 2000) azonban kellõ kompenzációt jelenthet.

Mindezek alapján a WAM-mal végzett DEA elemzések lépései és eredményei a következõképpen foglalhatók össze:

Elsõ feladatként a klasszikus DEA hatékonysági értékek más összefüggésekkel (LP nélkül) való visszatükrözése jelentkezett. A vizsgálathoz a SPEL-bõl leválogatott búza adatok szolgáltak, hasonlóan a DEA-futtatásokhoz. A 14 ország mellett az EU11 és EU15 átlaga is rendelkezésre állt (14+2), országonként 26 évre, azaz 16*26=416 objektumra. Az attribútum sorát a búza terméseredménye, az NPK, mész és az energia-felhasználás adta. A legegyszerûbb WAM futtatása után világossá vált (s ezt a Darwin adatbányászati szoftverrel végzett teszt is alátámasztotta), hogy logikai jellegû összefüggés-elemeket nem szabad az megoldás-törzseként felhasználni. A szakértõi rendszer-alapú megközelítés helyessége arra a kérdésre, hogy a DEA tényleges értéke a saját évében a saját 416 értékének mediánja alatt, vagy felett helyezkedik el, mintegy 77,6%-os volt. Tudva, hogy az egzakt reprodukcióhoz minden adat rendelkezésre áll, szükségessé vált az emberi intuíció/hipotézis alkotási készség bevetése. Ennek alapján elõállt egy egyszerû numerikus képlet, mely szerint a mindenkori DEA érték jól közelíthetõ a hozam és a ráfordítások összegének 0 és 1 közé kényszerített hányadosával. A WAM-tól függetlenül kapott, de értelemszerûen a WAM-ban is reprodukálható megoldás pontossága már ugrásszerûen javult, s elérte a 92,7%-t a 416 objektum esetén, s 93,7%-ot az utolsó 144, vagyis az 1990-1998-as kódú teszt-objektumok esetén. A harmadik lépés ennek a WAM lehetõségeit kihasználó továbbjavítása volt. Látva a az eredeti DEA-hatékonyság idõsorainak lefutását, ismét csak szakmai étgondolás alapján, s a WAM logikai mûveleteinek felhasználásával egyszerû "if/then" képletrésszel bõvült az eredetileg numerikus megoldás, mely az idõtényezõ, mint a DEA-ban eddig nem használt, de szakmailag odaillõ változó keresett küszöbértékéhez képest elhelyezkedõ alapadatot helyettesítette be nagyságrendjében hatékony (keresendõ) súlyokkal. Az így kapott hibrid megoldás helyessége 94,7% volt a 416 objektum esetén, (s maradt 93,7% a tesztben), mely +2% (94,7-92,7) a fennmaradó 100-92,7=7,3%-nyi mozgástér kb. 27%-át teszi ki egyetlen hipotézis/bõvítés alapján. Hosszabb távon elvárható, hogy a pontosság tetszõleges szintre emelhetõ legyen. A kapott eredmények alapján elmondható, hogy a bonyolult DEA mechanizmus új objektum értékelésekor kiváltható, s lényegében tetszõleges pontossággal közelíthetõ. Bár a vizsgálat csak a kontingencia koefficiens, mint célfüggvény alkalmazására koncentrált a háttérben természetesen numerikus DEA becslések is születtek. A célfüggvények hierarchiája értelmében (és a hatékonysági értékek gyakorlati alkalmazásának sajátosságai miatt - csak a jó hatékonysági csoportba tartozás bír információ-értékkel, nem pedig a számszerû hasonlósági érték) addig nincs értelme a számszerû azonosság vizsgálatának, míg a klasszifikáló erõ tetszõleges küszöbérték esetén nem elegendõen magas. A medián körül kialakuló 50-50%-os monoton stratégia jelentõs megjavítása pedig a legnagyobb kihívásnak számít a szóba jöhetõ küszöbértékek közül. Már itt is érdemes megjegyezni, noha a búzatermés éven belüli elõrejelzésénél ez külön említésre kerül, hogy egy jól kiegyensúlyozott megoldás kontingencia koefficiense tetszõleges réshalmazokra is magas marad, vagyis lényegében a leghasonlóbb ismert objektumok/objektumcsoportok kiválasztását is lehetõvé teszi, ezzel biztosítva egy egyre pontosodó, többlépcsõs intervallumbecslést.
A DEA kapcsán felmerült másik kérdés az LP (solver) teljes kiváltása volt. Elsõ értelmezésre a kérdés talán idegennek tûnik a címben vállalt MI-alapú elõrejelzések témakörétõl. Mélyebben vizsgálva a feltett kérdést azonban egy újszerû típushelyzetre bukkanunk. A DEA teljes kiváltása WAM-mal lényegében egy speciális hasonlósági függvény, ill. más szóval célfüggvény megtalálását jelenti, mely függvény magába olvasztja az eddigi modellek törzsét alkotó közvetlen becslõfüggvényt. A DEA tehát akkor váltható ki WAM-mal, ha létezik, ill. generálható egy olyan lépéssor, mely minimalizálva a célfüggvénybõl következõ hibát legalább trendjelleggel, de ideális esetben egyedi lépésekben egyre pontosabb DEA eredményeket tükröz vissza. Ugyan ez a helyzet a LOTTO számok "elõrejelzésekor" is. Ott sem kell mást tenni, mint egy olyan speciális véletlenszám-generátort elõállítani, mely az ismert számsorokat visszatükrözi, s éppen ezért a következõ húzásokra vonatkozó javaslatai egy fajta elõrejelzésként értelmezhetõk. (A LOTTO kombinatorikai tere és az ismert húzások viszonylag alacsony száma, ill. a céltalanság tétele miatt ez a kérdés természetesen csak elvben kezelhetõ). Jelen projekt keretében a feltett kérdésre nem készült keresõ algoritmus. Hiszen már az elsõ, szakmai szempontból védhetõ elképzelés (az 1-becslés képletbõl származó hibák minimalizálása minden objektum esetén) is 85%-os hasonlóságot mutatott, mely a projekt környezeti kapcsolódásai által elvárt pontossági szintnek önmagában is megfelelt. Itt érdemes megemlíteni, hogy a DEA-hoz hasonló vizsgálatok a Joker hasonlóság elemzõ (elõrejelzõ) rendszerrel szemben is megfogalmazódtak, de a Joker transzponált (sor-oszlop cserét elváró) táblázata sajnos nem támogatható az Excel korlátozott oszlopszámai miatt automatikus adatátvétellel.

4. Statisztikai-jellegû elõrejelzések

Ezen elõzményeken keresztül jutunk el a kutatási téma klasszikus lépéseihez, vagyis a több megközelítést, több kérdés esetén egymással versenyeztetõ elemzésekhez. A vizsgálatok a következõ (a környezeti kapcsolatok által sugallt) kérdéseket érintették: milyen pontossággal jelezhetõ elõre a búza terméseredményének, a búzatermesztés energiafelhasználásának és a búzatermesztés hatékonyságának változása 5 év alapján 3 évre elõre az utolsó ismert terméseredményhez képest, ill. a terméseredmények mediánjához képest, egyetlen, minden objektumot (ország-év) felölelõ képlettel, ill. ország idõsorai meghatározott egyedi képletekkel. Az alkalmazott összefüggés mindenkor az

y= p1*x(t-4) * p2*x(t-3) p3*x(t-2) p4*x(t-1) p5*x(t0)

alapforma volt, ahol y-ként a termés, az energiafelhasználás és a hatékonyság t+3. értéke került értelmezésre, ill. az x-ek a mindenkori jelenség idõsorának (t-4)ß > t0 elemei, míg a p(i) értékek a nagyságrendi megfeleltetéshez szükséges paraméterek voltak. Jogos kérdésként vetõdhet fel, hogy miért éppen ez a konstelláció kerül vizsgálatra? A válasz egyszerû: a környezeti kapcsolatok sokszínû elvárásai közül mintegy véletlenszerûen kerültek éppen ezen adatok és összefüggéstípusok vizsgálat alá. Hiszen az eddigi számos elõtanulmány világosan jelzi, hogy sem a magyarázó tényezõk mennyisége, minõsége, idõbeli mintázata, sem az ezeket feldolgozó függvények lehetséges típusai nem kezelhetõk egységesen az ismert statisztikai eljárásokkal, ill. nem figyelhetõk meg ezek körében olyan kiindulási mintázatok, melyek nagy valószínûséggel jobbak, mint bármely másik. Azt azonban nem szabad elfelejteni, hogy az elsõ számítások után tendenciájában világosan látható, hogy a vizsgált konstelláció megüti-e egy összehasonlítási alaptól elvárt szinteket. Ilyen elvárás pl., hogy (az MI-alapú megközelítésnél minimum követelményként kezelt elvárást, vagyis) legalább a monoton stratégiákat a választott módszer legyen képes felül múlni. A számszerû eredmények az összehasonlító táblázatokban kerülnek bemutatásra és értelmezésre.

5. WAM-alapú elõrejelzései

Az elõzõ pontban leírt kérdésekre a WAM keretében is választ kerestünk. A válaszok jórészt a kapott statisztikai jellegû megoldás pontosságot növelni engedõ továbbfejlesztési lehetõségeit vizsgálták. Másrészt azonban sor került annak elemzésére is, hány inputtényezõ (5 évre visszamenõ NPK, mész, energia, DEA) vonható be javító, ill. nem rontó hatással egy-egy komplex/hibrid megoldásba (termés, energia-felhasználás, hatékonyság-változás 3 év múlva). A WAM a primer alapadatokból tetszõleges módon és mennyiségben számított mutatószámokat (vö. kézi vezérlésû függvényépítés) szintén képes kezelni, s ezekrõl eldönteni, hogy segítik-e az elõrejelzést, vagy lényegében semlegesek, ill. feleslegesek. A változók számának bõvítésén, ill. az alternatív megoldások megtalálásán túl speciális (a korábbi munkákból már jól ismert) hipotézisek (ABS- és SIN-függvények hatása) is vizsgálatra kerültek a jelenlegi adatbázison. A vizsgált objektumok száma 304 volt - 14+2=16 téregység (ország, aggregátum) és 19 év (26 éves teljes idõsor - 4 múltbeli és 3 elõretekintõ pont) alapján. Ebbõl a tesztben 112 objektum vett részt (országonként az utolsó 7 év). A számszerû eredmények az összehasonlító táblázatokban kerülnek bemutatásra és értelmezésre.

6. A búzahozam elõrejelezhetõsége

A statisztikai idõsor-elemzésektõl függetlenül (lévén többtényezõs termelési függvények megtalálására nincs kialakult ajánlás az ismert eszközökre) elkészült a búza várható termésének elõrejelzõ rendszere, mely - idõsor effektusok nélkül - semmi mást nem kér input oldalon, mint az NPK, a mész és az energiafelhasználás várható nagyságát (kihagyva az idõkoordinátát, mint felkínált lehetõséget), s ezek birtokán adja meg az ismert terméseredmény-intervallum mediánjához képest a várható termés elhelyezkedését. S teszi mindezt a klasszikus WAM induktív szakértõi rendszer-logikájára támaszkodva, vagyis inputonként megadja azt a küszöbértéket, mely alatt és felett eltérõ súlyokkal helyettesíti be az összegzésben a tényértékeket. A súlyok összege által meghatározott skála mediánja körüli megoszlás pedig finomhangolás nélkül 89,6%, speciális paraméterhelyek bevonásával pedig 89,9%-ban tükrözi vissza adott a 416 objektum átlag alatt, ill. átlag felett realizált terméseredményeit. Az így kapott megoldás teszteredménye 144 objektum esetén mindkét esetben 95,1%. A szakértõi rendszer továbbbontása során a részhalmazokra (csak a mindenkori felsõbb /teljes/ halmaz mediánja alatti/feletti halmaz mediánjára) számított megoszlások szintén nagy stabilitást mutatnak. Ez lehetõvé teszi a leghasonlóbb ismert esetek, esetcsoportok kiválasztását és a becslések numerikus felülvezérlése (ismert max-min intervallumba vetítése) nélküli számszerû becslést. Emellett - a számos azonos helyességû, alternatív megoldás között - egyes küszöbérték-sorok jól közelítik a terméssel kivonható NPK szakmailag ismert szintjeit. Ezáltal egy-egy megoldás ok-okozatilag, s absztrakt szinten is jól értelmezhetõ, amellett, hogy maga az összefüggés egy white-box jellegû megoldás. A 416 vizsgált objektumon túlmenõen a részlegesen rendelkezésre álló magyar adatok összevetése a küszöbértékekkel jelzi, hogy a magyar technológiák és termésátlagok valóban az EU mediánja alatt helyezkednek el a szakmai elvárásoknak megfelelõen. A 90%-os tartományban található klasszifikáló erõvel kapcsolatban el kell mondani, hogy a medián körüli ingadozás 50-50%-os kiindulási helyzetéhez képest magas, még akkor is, ha szakmailag bizonyos objektumok (országok) esetén a küszöbérték szerinti besorolás a tradicionális termésszintek ismeretében jól megadható lenne. A megoldást jelentõ modellek azonban immár 14+2+1 földrajzi régióra visszaigazoltan jelzik az általános biológiai összefüggések érvényességét. Alapot adva ezzel a szaktanácsadás, az agrárpolitikai tervezés és a szimuláció számára a környezeti kapcsolatok által sugallt kérdésfelvetéseknek megfelelõen.

7. Összehasonlító táblázatok

A következõ két táblázat a medián körüli megoszlások statisztikai és WAM-alapú elõrejelzését, ill. a mindenkori nulladik évhez képest 3 év múlva várható változások irányának elõrejelzését adja meg a sorokban definiált helyzetek fellépése esetén a búza ágazat adatait felhasználva 1973-1998 között 304 objektumra, melybõl 112 tesztobjektum került kijelölésre a mindenkori idõsor utolsó hét eleme formájában:

Találati arányok %-ban a medián körüli megoszlás esetére

Megnevezés	hozam	energia	DEA	átlag
monoton stratégia, avagy a küszöbérték körül ismert megoszlástorzulások (a medián logikája alapján kényszerûen 50%)	50	50	50
statisztikai alapon, 304 objektumot egyszerre kezelve a feltett kérdés 5 elemû idõsora alapján	92,1	89,4	72,3
statisztikai alapon, országonként 19 egység hosszú idõsorok és a feltett kérdés 5 elemû idõsora alapján	93,7	90,1	77,9
WAM-alapján 304 objektumra (112 tesztre)	94,7 (98,2)	92,1 (97,3)	79,2 (85,7)
utalás a WAM belsõ szerkezetére (felhasznált magyarázó változók, logikai modulok, specialitások)	H1-jelû magyarázat	E1-jelû magyarázat	D1-jelû magyarázat
1. mozgástér (lehetséges abszolút javulás) a monoton stratégiához képest (100%-1. sor értéke)	50	50	50
2. mozgástér a 2. sor esetén (100%-2. sor értéke)	7,9	10,6	27,7
3. mozgástér a 3. sor esetén (100%-3. sor értéke)	6,3	9,9	21,8
A WAM relatív elõnye az 1. mozgástérben az 1. sorhoz képest	44,7/50 = 89,4	42,1/50 = 84,2	29,2/50 = 58,4
A WAM relatív elõnye a 2. mozgástérben a 2. sorhoz képest	2,6/7,9 = 32,9	2,7/10,6 = 25,4	6,9/27,7 = 24,9	28,7
A WAM relatív elõnye a 3. mozgástérben a 3. sorhoz képest	1/6,3 = 15,8	2/9,9 = 20,2	1,3/21,8 = 5,9	13,9

Magyarázatok: A táblázat alapján látható, hogy a medián körüli klasszifikálás nagy helyességgel megoldható, bármely módon. Ennek magyarázata a magukból a jelenségekbõl következik.

Az is megfigyelhetõ, hogy a 304 objektumra egyszerre érvényes statisztikai megoldás minden esetben gyengébb, mint az ország 19 elemû idõsorait külön-külön kezelõ megoldások átlaga. Ez egyben a numerikus és logikai elemek egymáshoz rendelésének célszerûségét is mutatja. A WAM-ban logikai bõvítményként az évek hatása került beépítésre.

H1: Ez a WAM tartalmazta az összes inputváltozó (5 év, NPK, mész, energia és DEA) + az év) adatait, küszöbérték körüli megoszlásokhoz tartozó súlyozással és az aktív súlyok felösszegzéssel, ill. az év esetén kiegészítõ logikai mûveletek beépítésével, valamint primer adatok paraméterrel hatékonnyá tett szorzatának módosító hatásával.

E1: Ez a WAM az 5 elemû aktivitásokon és súlyokon keresztül módosított energia-idõsor alapmintáját vette át a statisztikai megoldástól kiegészítve az év hatását két küszöbértéken keresztül beemelõ logikai összefüggéssel, ill. az abszolút érték függvény rangsor-keverõ hatásával, ill. két paraméterhellyel.

D1: Ez a WAM az 5 elemû eredeti hatékonysági-idõsort vette át a statisztikai megoldástól kiegészítve az év hatását két küszöbértéken keresztül beemelõ logikai összefüggéssel, ill. a lépésrõl-lépésre feltárt legaktívabb változók egyedi paraméterekkel továbbfinomított aktivitás-súly értékeivel.

A WAM belsõ szerkezetét érzékeltetõ információk kapcsán érdemes kiemelni, hogy az ember + gép szimbiózisa a hipotézis-vizsgálatoknál annál hatékonyabb minél jobban érzi az ember, milyen típusú finomhangolást (nagyságrend-harmonizálást biztosító) paraméterezésre lehet szüksége, ill. milyen önmagában is rangsorkeveredést elõidézõ mûveletek (pl. SIN, ABS) hatására lehet szükség a logikai mûveletek amúgy is asszociatív alkalmazásán túl. A SPEL-re vonatkozó elemzések eddig pl. a korábban üzemi adatokon és automatikus függvényépítés során már bevált SIN függvényt nem tudták visszaigazolni, ami más oldalról az ezt alkalmazó ember korlátjait is jelezheti.

A táblázat összefoglalását az átlag oszlopban található két érték jelenti. Az elsõ szerint közel 30%-ban felülmúlható a WAM elsõ tapogatózó lépéseivel a 304 objektumra vonatkozó klasszifikáló erõ a még javulásra rendelkezésre álló mozgásteret 100%-nak tekintve. S a már logikai lépéseket tartalmazó 16*19 objektumos megoldás is 14%-kal emberi hipotézisek alapján felülmúlható. Fontos jelezni, hogy a WAM megoldásai ez esetben is ország-függetlenek, azaz feltehetõen bármely pl. csatlakozni kívánó országra is érvényesek, szemben a statisztikai jellegû megoldással. Így a majd 30%-os javulás a mértékadó szám.

Az, hogy a teszt helyesebb eredményekre vezet, mint a teljes adatbázis klasszifikálása többek között azzal magyarázható, hogy a vizsgált jelenség egyre stabilabbá válik, azaz a rendezettség, a determinizmus irányába változik a kaotikus mozgásokat lehetõvé tevõ sûrûsödési pontok közeledése helyett.

Találati arányok %-ban a mindenkori 3. éves változások trendjét illetõen

Megnevezés	hozam	energia	DEA	átlag
monoton stratégia, avagy a küszöbérték körül ismert megoszlástorzulások	70,3	79,6	55,3
statisztikai alapon, 304 objektumot egyszerre kezelve a feltett kérdés 5 elemû idõsora alapján	76,6	76,9	63,8
statisztikai alapon, országonként 19 egység hosszú idõsorok és a feltett kérdés 5 elemû idõsora alapján	79,6	75,9	70,3
WAM-alapján 304 objektumra (112 tesztre)	80,9 (76,7)	79,9 (76,7)	72,6 (68,7)
utalás a WAM belsõ szerkezetére (felhasznált magyarázó változók, logikai modulok, specialitások)	H2-jelû magyarázat	E2-jelû magyarázat	D2-jelû magyarázat
1. mozgástér (lehetséges abszolút javulás) a monoton stratégiához képest (100%-1. sor értéke)	29,7	20,4	44,7
2. mozgástér a 2. sor esetén (100%-2. sor értéke)	23,4	23,1	36,2
3. mozgástér a 3. sor esetén (100%-3. sor értéke)	20,4	24,1	29,7
A WAM relatív elõnye az 1. mozgástérben az 1. sorhoz képest	10,6/29,7 = 35,6	3,3/20,4 = 16,1	17,3/44,7 = 38,7
A WAM relatív elõnye a 2. mozgástérben a 2. sorhoz képest	4,3/23,4 = 18,3	3,0/23,1 = 12,9	8,8/36,2 = 24,3	18,5
A WAM relatív elõnye a 3. mozgástérben a 3. sorhoz képest	1,3/20,4 = 6,3	4,0/24,1 = 16,5	2,3/29,7 = 7,7	10,1

Magyarázatok: A táblázat alapján látható, hogy a mindenkori 3 évre vonatkozó elõrejelzések a monoton stratégia által jelzett torzulások ellenére sem magyarázható magától értetõdõ pontossággal, noha az automatikus függvényépítés ezen esetekre is elméletileg a teljes (túltanulással terhelt) pontosságot ígéri.

Az elsõ módszertanilag magyarázatra szoruló eredményt az energiafelhasználás elõrejelzése kapcsán lehet megfigyelni. Ez pedig nem más, mint az, hogy a monoton stratégiát a statisztikai közelítés egyik változata sem képes felülmúlni. Emellett az országokra bontott megoldásnál a teljes objektumsorra vonatkozó jobb. Ezen jelenségek együttes fellépése erõteljesen jelzi, hogy a vizsgált jelenségek a rendelkezésre álló adatok és white box közelítések alapján nem magyarázhatók tetszõleges pontossággal, vagyis egy fajta kaotikus karakter rendelhetõ hozzá a kérdésfeltevéshez.

Ennek ellenére igaz az, hogy a WAM típusú megoldásokkal bármely statisztikai verzió felülmúlható, s megint csak az összehasonlítható megoldásokat egymás mellé állítva, ez a javulási szint a fennmaradó mozgástér 20% közelében van.

Még egyszer ki kell emelni, hogy az abszolút számok szintjén relatíve kis mértékûnek tûnõ javulás csak azt a szintet tükrözi, amely az ember+gép szimbiózis bizonyítása érdekében minimálisan felvállalandó, s bárki által Excel-ben bárhol rövid idõ alatt realizálható. A nagyobb emberi kreativitást és gépi szabadságot, de egyben erõteljesebb black box karaktert jelentõ, s tetszõleges pontossági szinteket elérhetõ megoldások (pl. generátor modell) bevetése a kutatási és a piac jelen állapotában nem okszerû.

H2: Ez a WAM az 5 elemû eredeti hozam-idõsort vette át a statisztikai megoldástól kiegészítve az év hatását két küszöbértéken keresztül beemelõ logikai összefüggéssel.

E2: Ez a WAM az 5 elemû eredeti energia-idõsort vette át a statisztikai megoldástól kiegészítve az év hatását két küszöbértéken keresztül beemelõ logikai összefüggéssel, ill. néhány aktív, egyedi paraméterekkel továbbfinomított aktivitás-súly összegével.

D2: Ez a WAM az 5 elemû eredeti hatékonysági-idõsort vette át a statisztikai megoldástól kiegészítve az év hatását két küszöbértéken keresztül beemelõ logikai összefüggéssel, ill. a lépésrõl-lépésre feltárt legaktívabb változók egyedi paraméterekkel továbbfinomított aktivitás-súly értékeivel úgy, hogy automatikusan a 0-1 intervallumba kényszerített becslési értékek kerülnek kiértékelésre a kontingencia-jellegû célfüggvénnyel.

Összevont értékelés: A két táblázat alapján látható, hogy a hasonló jellemzõkkel bíró statisztikai megoldások a WAM-mal a mozgástér 20-30%-a erejéig felülmúlhatók. A kapott megoldások ennek ellenére még mindig white box szerkezetûek. Tetszõleges változó logikai és numerikus hatását képesek integrálni. Az emberi hipotézisek vizsgálata egyben teljesen automatikus keresés alapjául szolgáló tapasztalatokra is vezet. Emellett a statisztikai megoldások nem tudják mindenkor felülmúlni a monoton stratégia szintjét, s az ún. logikai egységekkel való bõvítés sem magától értetõdõen pozitív hatású (s ez megfelel a WAM tapasztalatainak is).

Összességében elmondható, hogy oktatási és magánjellegû/kisebb volumenû alkalmazások céljára a WAM beváltotta a hozzáfûzött reményeket. A magyarországi mezõgazdasági és vidékfejlesztési információs rendszerben az ad hoc vizsgálatokra, ill. a célszoftverek megtervezésekor, valamint az elemzõk/felhasználók betanításakor a WAM-mal szerezhetõ tapasztalatok fontossága megkérdõjelezhetetlen. Ennek egyik kézzel fogható jele, hogy a március közepére tervezett OMFB IKTA projektbemutató (IKTABU) prototípusában már a DEA és a WAM által elõállított adatok is szerepelnek. Emellett a kinyert hibrid szakértõi rendszerekbõl az áprilisi Networkshopra on-line szakértõi rendszerek kerülnek fel az Internetre (http://miau.my-x.hu/oszr/index.html).

Az OTKA pályázat jelentése teljes szöveg WinWord formátumban: miau.my-x.hu/miau/19/otkastudy.doc