Tezaurusz

A Miau Wiki wikiből

Angol megnevezés: Tezaurus

Történeti modul

  • 1970: Megalkották az első Tezauruszt, azóta 49 db hoztak létre melynek többségét alig vagy egyáltalábban nem is használták.
Ilyen pl:
  • ELEKTROTECHNIKAI / Ungváry. - KGTMTI, 1975. ALIG HASZNÁLTÁK
  • ÉPÍTÉSTUDOMÁNYI. - ÉTI, 1975. ALIG HASZNÁLTÁK
  • KÖNYVTÁRI / Kövendi D. - OSzK KMK, 1976. HASZNÁLATBAN
  • GAZDASÁGSTATISZTIKAI / KSH, 1976. NEM HASZNÁLTÁK
  • FÉMTÖMEGCIKKIPARI / Ungváry R. - KGTMTI, 1975-77. NEM HASZNÁLTÁK
  • SZÁMÍTÁSTECHNIKAI / Ungváry R. - SzÁMALK, 1982. HASZNÁLATBAN
  • KÜLGAZDASÁGI / Kónya B. - 1983. NEM HASZNÁLTÁK
  • OSZTAURUSZ / Ungváry R., Pap I.-né. - OSZK, 1983-84., 1995. HASZNÁLATBAN[1]
  • 1990: Egy adott szakter. szakkifejezéseinek szabványokban szabályozott szerkezetű, szükség szerint változtatható szótára, amely feltünteti a fogalmak közötti jelentésbeli összefüggéseket is. Azokat a szakkifejezéseket, amelyek szerint egy automatizált információkereső rendszerből (adatbankból) adatok kikereshetők, deszkriptoroknak nevezik. A további szakkifejezések a ~ban (nemdeszkriptorok) utalásokat tartalmaznak a deszkriptorokra, és a ~ érvényességi körén belül azok szinonimáiként kezelendők. A ~ alapján a deszkriptorok tetszőleges logikai kapcsolatainak megadásával fogalmazható meg az ún. keresőkérdés, amelynek megfelelő információk az adatbankból lekérdezhetők.[2]
  • 2000: A tezaurusz olyan szótár vagy szójegyzék, amelyben az egyes szavak mint fogalmak az egymáshoz viszonyított és jelzett értékeik (alá- fölérendeltség stb.) szerint vannak felsorolva. Nagyon jó segédeszköz mindenféle munkához melynél fontos a kategorizálás.[3]
  • 2005: A tezaurusz szavak közötti összefüggéseket tartalmazó szótár, amely ötleteket adhat a minél pontosabb, hatékonyabb kereséshez. Hasonlít a szinonimaszótárra, de annál lényegesen többet tud, egy olyan egynyelvű szótár, amelyben a szavak fogalmi körök, logikai, vagy jelentésbeli összefüggések alapján vannak elrendezve.[4]

Ontológiai modul

  • "ez egy" kapcsolattípus:
    • nyelvészeti (jelző)
    • terminológiai (jelző)
    • információkereső (jelző)
    • REFLEX (fajta)
    • ...
  • "van neki, része a címszónak" kapcsolattípus:
    • Információ
    • adatmodell
    • vezérszavak
    • deszkriptorok
    • nemdeszkriptorok
  • "a címszó része valaminek (a címszóval egyenrangú fogalmak)" kapcsolattípus:
    • Ontológia (Tezaurusz,szótár,meghatározások csoportja)
    • könyvtári szolgáltatás (Tezaurusz, online könyvtári szolgáltatás, offline...)
    • online könyvtári szolgáltatás (Tezaurusz, E-learning, Internet, Online tudástranszfer, keresés, katalógus)
    • ...

Ellentmondások és vitatott kijelentések modulja

Szerkesztői javaslat: Mi az összefüggés a tezaurusz, az ontológia, a konzisztencia, a természetes nyelvek mesterséges intelligencia alapú elemzése között? Mi az összefüggés a hírügynökség, a tezaurusz és a keresési idő és a találatok értékének optimális aránya között?

Válasz a szerkeztői javaslatra

Definiciók

  • Tezaurusz: A tezaurusz olyan szótár, melyben a szókészletet a szavak expliciten kifejezett összefüggéseivel együtt adják meg. Ezért nevezik strukturált szótárnak. A szócikkek (tezauruszcikkek) azonban nem csak a szemantikai és morfológiai (együttesen paradigmatikus) összefüggéseket hanem a vezérszóval összefüggő magyarázatokat, meghatározásokat, használati, történeti, forrás stb. megjegyzéseket is tartalmaznak, ezért a tezaurusz a terminológiai szótárra is emlékeztet. Elvileg sokféle tezaurusz készülhet (nyelvészeti, terminológiai, információkereső)
  • Ontológia: Az ontológiákat általában egy logikán alapuló nyelven fogalmazzák meg úgy, hogy részletes, pontos, egyértelmű, megbízható és értelmes megkülönböztetéseket tehessünk osztályok, tulajdonságok és viszonyok között. Néhány ontológiai eszköz képes automatikus következtetéseket is levonni az ontológiák révén, és ezáltal fejlett szolgáltatásokat képes nyújtani olyan modern alkalmazásokhoz, mint pl. a fogalmi/szemantikai alapú keresés, a szoftver ágensek, a döntéstámogatás, a természetesnyelv-értés, a tudásbázis-kezelés, az intelligens adatbázisok és az elektronikus kereskedelem.
  • Konzisztencia: Ellentmondás-mentesség. Csak akkor lehet biztosítani, ha minden adat és ezek keletkezési módja pontosan dokumentált, illetve az egymással oksági kapcsolatba hozható adatok kapcsolatrendszerét leíró táblázat adott, mely alapján a szakmai hibaelemzés elvégezhető
  • Természetes nyelvek mesterséges intelligencia alapú elemzése: A mesterséges intelligencia fejlődése megmutatta, hogy az ember nagyon bonyolult feladatok megoldására is képes számítógéppel, de a módszerek jelentős része a Neumann-féle számítógép – alapvetően soros –architektúrájára és nem az agyéra épít, így a hatékonyság-növelés következtében egyre számítógép-orientáltabbak lettek a mesterségesintelligencia-elméletek, következésképp az emberi nyelvfeldolgozás valódi modellálása is a háttérbe szorult. A 70-es évek elejének gépi nyelvészetét ismerők számára köztudott, hogy sok gépi nyelvmodell valamely mesterségesintelligencia-laboratóriumban keletkezett. Ezek elsősorban kísérletek voltak és nem eladásra szánt szoftvertermékek. A mesterséges intelligencia eközben elsősorban határterületeket produkált a nyelvfeldolgozásnak, lévén nem a nyelvészetért, hanem a teljes kognitív folyamat modellezéséért felelős tudományterület. Ilyenek a logika, a számítástechnika, de ilyen a látás vagy mozgás tanulmányozásával foglalkozó kutatás is. Hogy nyelvi modellek mesterségesintelligencia-környezetben való kezelése miért halványodott el, ahhoz elég megemlíteni azt, hogy a jelentés pontos, egységes, átfogó és jól gépesíthető formális kezelésével – minden pozitív eredménye ellenére – még ma is adós a tudomány. Ugyanakkor a szöveg- és beszédfeldolgozás más aspektusaival foglalkozó fejlesztők – saját, nem közvetlenül a mesterséges intelligencia világából származó módszereikkel – óriás léptekkel haladtak előre. A 90-es évek végén tehát nyugodtan leszögezhetjük, hogy a nyelvhelyesség-ellenőrzők, az automatikus elválasztók és a beszédfelismerők korában (Prószéky 2000) e területek jeles kutatói a valószínűség-számítás, a matematikai statisztika, a formális nyelvészet, az információfeldolgozás világát kötötték össze elsősorban a hatékony hardverekével, és szinte olyan nyelvészeti módszer, melyet eredendően mesterségesintelligencia- módszernek nevezhetnénk, nem jött létre az elmúlt jó néhány évben. A változás azonban éppen a közeljövőben, azaz a fent emlegetett módszerek megszilárdulása után fog jelentkezni, méghozzá valószínűleg a nyelvészetben egy ideje kissé elhanyagolt mesterségesintelligencia-módszerek „újraélesztésével”. Szándékosan használtuk az „újraélesztés” kifejezést, hiszen a mai nyelvtechnológiai módszereinek nagy része nem más, mint a korábban kevésbé hatékonynak ítélt elmélet „felmelegítése” a mai hardverviszonyok közepette. Ma ugyanis nem egy korábban lassúnak tűnő nyelvészeti módszer kielégítő eredményt ad – a sebességviszonyok és a tárolókapacitás megnövekedése miatt. A fenti áttekintés után, a jelen helyzet ismeretében nyugodtan állíthatjuk, hogy az utóbbi időben kissé hanyagolt mesterségesintelligencia-módszerek napjainkban ismét egyre komolyabb segítséget nyújtanak a számítógépes nyelvészeti kutatóknak.


Definciók közötti összefüggés

  • Az az összefüggés az adott fogalmak között hogy mindegyik csak akkor létezik illetve működik helyesen ha az adott tartalom illetve adatok között fent áll valamilyen logikai kapcsolat, értelmezés vagy összefüggés. Enélkül egyik rendszer sem tudna müködni vagy nem is elnne értelme.

Definiciók

  • Hírügynökség: A hírügynökség (más szóval hírszolgálat, régies kifejezéssel távirati iroda) kereskedelmi, egyes helyeken állami, hírszolgálati vállalat, amelynek fő feladata a sajtó friss hírekkel való ellátása. A hírügynökségek között a verseny azért folyik, hogy egy adott ügynökség a leghamarabb közölje a hírt. A hírügynökségi újságírói munka annyiban hasonlít a lexikonszerkesztéshez, hogy a szöveg lényegét a számokhoz, nevekhez, rangokhoz köthető tények összegyűjtése adja. Következésképpen az ezekbe becsúszó hibák a legkényesebbek, azok (nevek, számok, rangok) elírásából szokott botrány lenni
  • Tezaurusz: A tezaurusz olyan szótár, melyben a szókészletet a szavak expliciten kifejezett összefüggéseivel együtt adják meg. Ezért nevezik strukturált szótárnak. A szócikkek (tezauruszcikkek) azonban nem csak a szemantikai és morfológiai (együttesen paradigmatikus) összefüggéseket hanem a vezérszóval összefüggő magyarázatokat, meghatározásokat, használati, történeti, forrás stb. megjegyzéseket is tartalmaznak, ezért a tezaurusz a terminológiai szótárra is emlékeztet. Elvileg sokféle tezaurusz készülhet (nyelvészeti, terminológiai, információkereső)
  • Keresési idő: Egy adott információ előkereséséhez szükséges idő. A keresési idő merevlemezek esetében azt az időtartamot jelenti, amíg a meghajtó író/olvasó fejét egy megadott szektor fölé mozgatja, hogy abból adatokat tudjon beolvasni, vagy oda adatokat tudjon kiírni
  • Találatok értékének optimális aránya': Abszolút mértékegysége természetesen nincs a jó találatok számának, csak józan ésszel áttekinthetetlen a több ezer találatból álló lista. A másik oldalról megközelítve, ha nem kapunk találatot (vagy csak kevés számút), akkor is eredménytelen a keresés, hacsak a kevés számú találatokban véletlenül nincs benne az, amelyiket kerestük. A találati lista szűkítésére megfelelő eszköz lehet a találatok közötti további keresés (ahol ez engedélyezve van) vagy az összetett keresés. Túl kevés találat tipikusan akkor fordul elő (az elgépelésektől eltekintve), ha az összetett keresésben szigorú feltételeket adunk meg. Segíthet a feltételek „enyhítése”, például az együttes előfordulás keresése a pontos egyezés helyett. Általában növeli a találatok számát ha a keresésbe a rokon jelentésű szavakat is bevonjuk (például növényvédőszer helyett vagy mellett a peszticid, fungicid stb. szavakra is keresünk). Általában a szakszavak előfordulása tudományos munkákban gyakoribb, hétköznapi anyagokban kevésbe, így például a burgonya termesztésről szóló szakirodalomban a burgonya és a „Solanum tuberosum L.” kifejezés fordul elő, míg egy receptben a krumpli, népnyelvi környezetben a pityóka stb.

Definciók közötti összefüggés

  • Hogy mind a Tezaurusznál(szavakról beszélünk) és mind a Hírügynökségnél(hírekről beszélünk)logiakailag vannak összekapcsolva a különböző szavak és hírek igy a keresés során tudunk szükíteni a keresendő témában. Ez azért fontos mert mind a elérési idő lecsökken mind pedig a találati arány kedvezőbb lesz mert nem add ki a kereső olyan cikket is amelyben csak előfordul a szó hanem ha logikailag kapcsolódik hozzá akkor csak azzokat "dobja ki" igy egyszerűsítve le a felhasználónak a kutatást.

Definíciós modul

  • A tezaurusz: A tezaurusz egy olyan speciális szótár, amelyben nem csupán a keresett szavak, fogalmak jelentését kapjuk meg, hanem az ahhoz (jelentésben vagy logikailag) kapcsolódó kifejezéseket is.

Tesztkérdések modul

  • Igaz-e,hogy az első magyar tezauruszt 1969 ben készitették?
(Hamis, mert csak 1970 ben készült el az első magyar ilyen tipusú szótár)
  • Igaz-e,hogy a tezaurusz az egy egyszerü webes szógyüjtemény?
(Hamis, mert egyébb értelmezési-fogalmi kapcsolatokon alapuló ontológiai szótár)
  • Igaz-e,hogy a tezauruszban a ≠ jel az jelőli hogy nincs kapcsolat a szavak között?
(Igaz)

Ajánlott irodalmak modulja

  • Minden amit a tezauruszról tudni kell [5]
  • WIKIPÉDIA [6]
  • UNGVÁRY Rudolf: Tezaurusz-technológia. Az információkereső tezauruszok készítésének folyamata. [7]