Nflquarterbacks
Tartalomjegyzék
- 1 Forrás
- 2 A tervezett alkalmazás/megoldás címe
- 3 A feladat előtörténete
- 4 A feladat megoldás jelenlegi helyzete és ennek értékelése
- 5 A tervezett megoldás adatvagyonának bemutatása (ANYAG)
- 6 A feladat által érintett célcsoportok
- 7 A feladat megválaszolása kapcsán várható hasznosság
- 8 A saját megoldás bemutatása (MÓDSZER)
- 9 Az eredmények értelmezése (EREDMÉNY)
- 10 Ajánlások megfogalmazása (KÖVETKEZTETÉS)
- 11 Az információ többletérték lehetőségének levezetése (VITA)
- 12 Lépcsős függvény átforgatása szakértői rendszerként értelmezhető táblázatba
- 13 Kapcsolódó, ill. konkurens megoldások, dokumentumok
Forrás
A tervezett alkalmazás/megoldás címe
Az NFL 2011-es utószezonjában szereplő irányítók éves fizetésének vizsgálata a szezonban elért eredményeik alapján.
A feladat előtörténete
Köztudott az, hogy az Amerikai Futball Ligában elképesztő mennyiségű pénz mozog mind Klubszinten, mind pedig a játékosokat illetően. De vajon mi az a tényező, ami alapján meghatározható egy játékos értéke? Ez ugyan nem csak az amerikai futball játékosainál lehet kérdés, hanem az összes csapatsport esetén is. Jelen helyzetben viszont, én az amerikai futball játékosaira koncentrálok, egyrészt személyes szimpátiából a sport iránt, másrészt pedig, mert ez az a sportág, ahol a legrészletesebb statisztikákat lehet elérni a játékosokról. Az alapvető kérdés az, hogy vajon a játékosokat a tényleges teljesítményük alapján díjazzák-e a fizetéssel? Az a pénzmennyiség, amit kapnak valóban azt tükrözi-e, hogy ők hogy teljesítenek a meccsen, mennyire segítik a csapatuk előrejutását a szezonban?
Mivel egy, a mezőnyben szám szerint gyengébb statisztikával rendelkező játékosnak is - magyar szemmel nézve - horribilis összegeket fizetnek ki éves szinten a csapatok, ezért úgy döntöttem, megvizsgálom, hogy összehasonlítva az egyes irányítók eredményeit, illetve fizetésüket, kik azok, akik teljesítményükhöz képest alul, illetve túl vannak fizetve.
A feladat megoldás jelenlegi helyzete és ennek értékelése
Jelen esetben egy játékos értékét megbecsülni rendkívül nehéz feladat, mondhatom, hogy szinte lehetetlen. Rengeteg tényező játszik/játszhat szerepet abban, hogy valakinek a fizetését megbecsüljük. Ezzel az elemzéssel a matematikai logika elvei alapján összehasonlítható az egyes játékosok egymáshoz viszonyított teljesítménye, illetve hogy ez hogyan mutatkozik meg a fizetésükben.
Igaz, a sportszakértők használnak egy számított értéket is az irányítók statisztikájában (passing rate), de nehezen hihető, hogy egyetlen számított értékből kerül meghatározásra a kifizetett összeg. Célszerű az összes jelentős attribútumot bevonni a számításba, hogy teljesebb képet kapjunk a problémát illetően.
Best Practice - Győztes, indoklás
Ez alapján a számított ráta alapján, illetve a játékosokhoz rendelt fizetési adatok alapján arra következtethetünk, hogy a legnagyobb mértékben alulfizetett játékos a mezőnyben Tom Brady, hiszen a legmagasabb passing rate értékhez a legkevesebb fizetés tartozik (passing rate=137,6, Fizetés: 5.750.000 USD; Alapadatbázis!O8' cella, 'Alapadatbázis!P8' cella). A legnagyobb mértékben túlfizetett játékos pedig Matt Ryan, mert nála a mezőny legalacsonyabb passing rate pontszámához kiemelkedő fizetési teljesítmény társul (passing rate=71,1, Fizetés: 11.250.000 USD; Alapadatbázis!O10' cella, 'Alapadatbázis!P10' cella)
A módszer kritikája
Az egyszerű vizsgálat, best practice, (gyakorlatilag a játékos megfigyelése meccsről-meccsre) további hibája a rengeteg vizsgálandó statisztikai adat bonyolultságán kívül, hogy a megfigyelő elfogulttá válhat, személyes preferenciákra alapozva alakíthat ki véleményt egy játékosról, nem objektív, nem kvantifizálható attribútumok alapján.
Egy játékos eredményeit több attribútum alapján lehet - és kell is - meghatározni, amelyre a best practice megoldás nem alkalmas. Mind emellet a kinyerhető információk részletessége is alacsony.
A tervezett megoldás adatvagyonának bemutatása (ANYAG)
Az adatvagyont, ahogy azt már korábban is említettem, az Amerikai Futball Liga irányítói, illetve a 2011-es utószezonban elért statisztikáik alkotják.Az adatvagyont szűkítésre került:
- Azért választottam az irányítók vizsgálatát, mert ebből a posztból minden csapatban csak egy van, így az összehasonlítás könnyebben végezhető el, illetve a másik oka pedig egy sportági sajátosságból ered, mégpedig abból, hogy a csapat legfontosabb tagja az irányító, a mérkőzések kimenetele körülbelül 80%-ban az irányító teljesítményétől függ.
- Azért választottam a 2011-es évet, mert az már (majdnem) lezárult, végleges statisztikák találhatók az interneten a szóban forgó játékosokról, illetve az éves fizetésükről.
- A teljesszezon 4 részre bontható, előszezon, főszezon, utószezon, illetve a rájátszás. Azért az utószezonra esett a választásom, mert az előszezon túl rövid, a főszezonban sokkal több elemszámmal kell számolni, illetve előfordulhatnak irányító cserék is a szezon során. Az utószezon az, amikor a játékosok a legjobban hajtanak, próbálják a legtöbbet kihozni magukból, hogy a rájátszásra már ne kerülhessen sor. Számít az is, hogy hányadik helyen végeznek az utószezonban. Itt már nem bíznak semmit a véletlenre, a legjobb irányítók játszanak, csak nagyon indokolt esetben kerül sor cserére (súlyos sérülés), és ebben a szezonban lehet minőségileg a legjobb statisztikákra találni. Így valószínűleg az éves fizetés meghatározásakor is ezek az eredmények számítanak nagyobb súlyban.
Objektumok (sorok)
- Drew Brees
- Eli Manning
- Matthew Stafford
- Tom Brady
- Aaron Rodgers
- Matt Ryan
- Alex Smiths
- Ben Roethlisberger
- Tim Tebow
- Joe Flaco
Attribútumok (X, Y oszlopok)
- Passing Completion (db): A sikeresen végrehajtot passzok száma - Minél nagyobb, annál jobb
- Passing Attempts (db): Az utószezon összes meccsén végrehajtott passzok száma, beleértve a sikeres, és a sikertelen passzokat is - Minél nagyobb, annál jobb
- Passing Completion %: Megmutatja, hogy az összes passzból hány százalék az, ami sikeres - Minél nagyobb, annál jobb
- Passing Yards (yard): A passzok hosszának összege, yard-ban kifejezve - Minél nagyobb, annál jobb
- Passing Average Yards: Megmutatja, hogy meccsenként átlagosan hány yard-ot passzolt az irányító - Minél nagyobb, annál jobb
- Passing Touchdowns (db): A touchdown-ok száma az utószezon összes meccsére vonatkozóan - Minél nagyobb, annál jobb
- Passing Interceptions (db): Interseption, vagyis elkapás az, amikor az irányító passzát az ellenfél egyik játékosa kapja el. Európai futballban erre a kifejezés: 'Eladja a labdát' - Minél kevesebb, annál jobb
- Passing First Downs (db): Az összes first down-t érő passz. First Down: Akkor használják, ha egy csapat a neki járó legfeljebb 4 kísérletből eléri a minimális célt, a 10 yardot, ami természetesen lehet több is. - Minél több, annál jobb
- Passing 20+ yards each (db): A 20 yardnál hosszabb passzok száma az utószezon meccsei alatt - Minél több, annál jobb
- Passing 40+ yards each (db): A 40 yardnál hosszabb passzok száma az utószezon meccsei alatt - Minél több, annál jobb
- Passing Sacked (db): Sack: Ez akkor következik be mikor az irányítót a védő(k) a labdával a kezében állítják meg. - Minél kevesebb, annál jobb
- Passing Rate: A játékos statisztikát vezető/elemző szakemberek által kalkulált mutatószám, ami az irányító passzolási képességeit mutatja meg - Minél nagyobb, annál jobb
- 2011 Salary ($): Az irányító éves fizetése dollárban - (Y)
A feladat által érintett célcsoportok
- Mivel a vizsgálatom alapja belső motivációból adódik, így elsődlegesen célcsoport nem határozható meg. Ezen felül a célcsoportba tartozhatnak azok a sportrajongók, esetleg elemzők, akik kíváncsiak arra, hogy a fizetések mennyire tükrözik a ténylegesen nyújtott teljesítményt a sportolók esetében.
- Mindemellett esetleg érdekes lehet csapattulajdonosoknak, ha indoklást kérnek egy játékos fizetésének meghatározásához. Márpedig, ha több millió dolláros szerződésekről van szó, akkor mindenképpen hasznos, ha konkrét adatokkal és vizsgálatokkal is alá tudják támasztani az esetleges ajánlatot.
A feladat megválaszolása kapcsán várható hasznosság
Az elemzéshez szükséges költségek:
- Adatbányászati módszerek alkalmazása nélkül a gyakorlatban nem lehet a statisztikák alapján lefolytatni a vizsgálatot.
A saját megoldáshoz szükséges költségek:
- 1 fő adatgyűjtés (3 óra), adatok összegzése, elemzés lefuttatása (5 óra), konklúzió, szöveges értékelés készítése (4 óra)
- Órabér: 1200 HUF, összesen: 12 óra, 14400 HUF
Mivel a vizsgálat által nyújtott eredményekhez csak adatbányászati módszerekkel van lehetőség hozzájutni, így a vizsgálat hasznossága 100%-nak mondható.
A saját megoldás bemutatása (MÓDSZER)
Alapadatbázis
Ez a munkalap tartalmazza az összes adatot, a sorokban az objektumokkal, vagyis a vizsgált irányítók neveivel, az oszlopok mentén pedig az attribútumok találhatók, vagyis azok a statisztikai mutatók, amely szempontok szerint vizsgálom a játékosokat. Az utolsó (Y) oszlopban található meg az az összeg, amely az adott irányító 2011-es évi fizetése. Az értékmezők pedig a játékosokhoz tartozó elért eredményeket mutatják.
Data
A Data fül tartalmazza az alapadatbázis összes információját, egymás alá másolva, oszlopos formában. Ez tulajdonképpen megegyezik az alapadatbázissal, annak egy egydimenziós ábrázolása, kiegészítve olyan információkkal, amelyek az adatgyűjtésre vonatkoznak (Forrás, Rögzítette, Dátum).
Pivot
A Pivot fül a Data fülön található egydimenziós táblából készült kimutatás, ami ismét két dimenzióban mutatja meg az adatokat. A két táblázat közötti különbség az, hogy amíg az első táblázat az értékeket szummázva jeleníti meg, a második táblában mennyiség alapján vannak jelen.
V2
A V2 elnevezésű munkalap egy háttéradatot szolgáltató munkalap, amely a COCO:STD elemzéshez szükséges információkat tárolja. Az első táblázat Teljes egészében a 'Pivot' adatlapra hivatkozik, azzal teljesen megegyezik, ez a primer adattáblázat. Alatta találhatók az irányok, amelyek a következő táblázathoz szükségesek. A következő táblázat a rangsor táblázat, amely a fölötte lévő primer táblázatból illetve a statisztikai mutatókhoz rendelt irányokból alakult ki a Microsoft Excel rangsor meghatározó függvénye segítségével. A függvény a megadott irány alapján megadja a fenti táblázatban található primer értékek sorszámát az oszlopon belül. Így kaptuk meg a rangsor-mátrixot.
auto_V2
Az auto_V2 munkalap tartalmazza a COCO:STD vizsgálat tábláit, és a munkalap utolsó táblázata tartalmazza a COCO elemzés kimeneti értékeit, a végeredményt, illetve az ellenőrzést.
inverz rangsor
Ez a munkalap szintén egy háttéradatokat szolgáltató munkalap a COCO elemzés számára. Tartalma megegyezik a 'V2' munkalap tartalmával, annyi változtatással, hogy az irányokat felcseréltem, így egy inverz rangsor-mátrixot kapunk, ami a COCO elemzés eredményeinek ellenőrzéséhez szükséges.
inverz_v2
Az utolsó munkalapon ugyanazok a műveletek hajtódtak végre, mint az 'auto_V2' munkalap esetében, csak itt az inverz rangsor-mátrix került felhasználásra a COCO elemzés lefuttatásakor.
- A COCO vizsgálat lefuttatása előtt megpróbálkoztam a Microsoft Excel Solver kiegészítőjének használatával is, de mivel az alapadatbázisom túl nagy méretű, ezért a Solver nem tudott lefutni.
Az eredmények értelmezése (EREDMÉNY)
Best Practice:
Ez alapján a vizsgálat alapján, a passing rate számított értéket, illetve a fizetéseket vizsgálva, hogy a legjobban alulfizetett játékos Tom Brady, és a legjobban túlfizetett játékos Matt Ryan. Ezen felül viszont nem kapunk további pontosító értékeket a túl- illetve az alulfizetettség mértékéről, illetve a vizsgálat eredményét egyetlen statisztikai érték vizsgálatára alapoztuk.
Saját megoldás (COCO:STD):
A COCO elemzés segítségével a következő eredmények születtek:
- A 10 vizsgált irányítóból 6 játékos alulfizetett, és 4 túlfizetett.
- A legnagyobb mértékben túlfizetett játékos: Ben Roethlisberger, a Pittsburgh Steelers elsőszámú irányítója. Az éves fizetése 3.837.223 USD-vel több, mint a COCO elemzés alapján a statisztikákból becsült érték.
- A legnagyobb mértékben alulfizetett játékos: Alex Smiths, a San Francisco 49ers irányítója. A vizsgálat alapján 2.599.104 USD-vel kevesebb az éves fizetése.
Ajánlások megfogalmazása (KÖVETKEZTETÉS)
Mint ahogy azt korábban említettem, az NFL-ben rettentő mennyiségű pénzekről beszélünk, ez alapján az én vizsgálatomban feltett kérdésre mindenkinek az első válasza annyi lenne, hogy "persze, hogy mindenki túl van fizetve".
Ennek ellenére a számomra is meglepő eredmény alapján kimutatható az alulfizetettség állapota is a játékosok statisztikáit vizsgálva.
Az információ többletérték lehetőségének levezetése (VITA)
A COCO vizsgálat lefolytatása mindenképpen sikeres, hiszen ennek a vizsgálatnak a segítségével lehet könnyen az összes statisztika bevonásával objektív vizsgálati eredményekre szert tenni.
Vagyis a vizsgálat célcsoportja számára 100%-ban hasznos információforrásként alkalmazható ez az eljárás.
Lépcsős függvény átforgatása szakértői rendszerként értelmezhető táblázatba
Aktív lépcsők száma
- Passing Completion (db): 3
- Passing Attempts (db): 8
- Passing Completion %: 9
- Passing Yards (yard): 0
- Passing Average Yards: 6
- Passing Touchdowns (db): 0
- Passing Interceptions (db): 5
- Passing First Downs (db): 0
- Passing 20+ yards each (db): 2
- Passing 40+ yards each (db): 0
- Passing Sacked (db): 3
- Passing Rate: 0
Aktív attribútumok száma
7 olyan aktív attribútum maradt, amelyre a szakértői rendszernél rá kell kérdezni.
Kombinatorikai tér mérete
A kombinatorikai tér mérete: 288
Következmények száma
Oszlopok száma: 13
Genetikai potenciál értéke
A genetikai potenciál értéke: 9.633.326
Kapcsolódó, ill. konkurens megoldások, dokumentumok
nyilatkozat és kitöltési segédlet
A lap eredeti címe: [2]