Atlétikai világ – Minden idők ranglistája adatok elemzése

Ebben a riportban az atlétikai adatokat elemeztem. Az adatkészlet a Kaggle.com-ról származik, egy excel fájl volt. Ez az adatkészlet közel 500 000 World Athletics eredményt tartalmaz az összes szakágról körülbelül 200 ország sportolóitól, 1935-től 2023 szeptemberéig, tehát a budapesti világbajnokság adatait is tartalmazza (megjegyzem, nem minden magyar atléta van benne, ez az elemzés során kiderült, nem tudom miért hiányos az adatkészlet).

Az alábbi oszlopokat tartalmazza:

  • all_time_rank – Minden idők helyezése a legmagasabb eredmények_pontszáma alapján,
  • results_score – Az atlétika ponttáblázataiból származó pontszám, amely figyelembe veszi az egyenértékű teljesítményt az egyes versenyeken
  • esemény – Részletes esemény- vagy szakcímke
  • kategória – Részletes kategóriacímke, leírja azt a Top listát, amelyből az eredményt gyűjtöttük, azaz tartalmazza a környezetet, a korkategóriát, a nemet
  • event_rank – Rangsorolás esemény/kategória szerint
  • mark – Mark megállapított. A mértékegységek időről másodpercre, órákra vagy méterekre vagy pontokra változnak, az esemény típusától (objektumtól) függően
  • versenyző – a versenyző neve
  • nat – A versenyző állampolgársága
  • születési_dátum – A versenyző születési dátuma
  • pos – A versenyző pozíciója a versenyen vagy a versenyen az eredmény rögzítésekor
  • dátum – A teljesítmény elérésének dátuma
  • helyszín – Helyszín, ahol teljesítményt értek el
  • életkor – A versenyző életkora az eredmény rögzítésének időpontjában
  • szél – Szélinformációk sprintekhez, ugrásokhoz. Csak a +2.0 legális széllel végzett előadások szerepelnek benne
  • mark_details – Opcionális részletek a leosztási időből konvertált eredményekhez vagy a kombinált események  lebontásához.
  • születési_év – A versenyző születési éve
  • esemény_neve – Az esemény rövid neve; példák: rúdugrás, 200 méter
  • event_type – sprint, gátfutás, középtávú, ugrások, dobások, kombinált versenyek, verseny-séták, váltók, országúti futás
  • környezet – beltéri vagy kültéri
  • age_category – senior, u20
  • nem – férfiak, nők, vegyes

Az adatokat a Power Query-be töltve néhány átalakításra volt szükség. A kor (age) oszlopnál ki kellett cserélnem a pontot, vesszőre, hogy számmá tudjam cserélni a kort a szövegről, hogy majd átlagot tudjak belőle számolni.

A helyszín (venue) oszlopban úgy szerepeltek az adatok, hogy a város és/vagy milyen sportlétesítmény és az ország kódja. Pl. National Stadium, Beijing (CHN), Nemzeti Atlétikai Központ, Budapest (HUN). Ezt szétszedtem, hogy külön oszlopban legyenek az ország kódok, hogy később erre is lehessen szűrni, és kalkulációkban használni. Így ha már a Power Queryben csak a HUN-t választjuk, akkor a másik oszlopban a magyar helyszínek jellennek meg. Ezt a venue oszlopot átneveztem helyszínnek, a másikat meg a helyszín nemzeti kódjának a könnyebb beazonosítás miatt. Végül az átalakított adatokat betöltöttem az adatmodellbe, itt hagytam az egy táblát, nem készítettem külön naptár táblát.

Kettő riport oldalt készítettem. Az egyiken a világ adatait összegeztem, a másikon a magyarországi adatokat.

A világ oldal riport:

Összeszámoltam, hogy hány nemzet (ország) összes sportolójának adatait tartalmazza az adatkészlet. Ehhez a Calculate, ezen belül a Distinctcount függvényt használtam, hogy az egyedi értékeket megkapjam. Használtam még itt Filter függvényt, és az ALL függvényt, hogy kikapcsoljam a szűrőket, hogy bármire is szűrűnk ezen az oldalon, ez a szám, ez az adat ne változzon, mindig a teljes összeg látszódjon.

Kiszámoltam a versenyzők átlagéletkorát, valamint az összes versenyző számát, ezeknél nem kapcsoltam ki a szűrőket, hogy ezeket mutassa a szűrőkkel.

Egy Clustered bar charton ábrázoltam a top 10 országot a versenyzők száma szerint. Ebből jól látszik, hogy a teljes időintervallumra (1935-2013) az USA sportolói voltak a legtöbben.

Egy-egy szűrőt (Slicert) tettem a riportba, arra, hogy az éveket lehessen szűrni, továbbá hogy szabadtéri vagy fedettpályáról van szó (indoor, outdoor), valamint kategóriák, ami szintén mutatja, hogy indoor vagy outdoor és azon belül senior vagy u20-as, illetve nő, férfi, vagy vegyes (váltó).

Egy Treemap nevű szűrőt is elhelyeztem, amin az event type (verseny típusa) szerepel, mint, hogy sprint, ugrószámok, gát, dobószámok, váltók stb.

Részletes adatokat lehet megnézni egy kis táblázatban, ami a event_name (verseny nevét) mint 100 méter, 200 méter, távolugrás stb. tartalmazza, ezek mellett a versenyzők számát, a nemzetét, és az átlakéletkort. Itt a Total-nál is látszik, ami fent a Card-kon, hogy a összes versenyző száma 35 780, a versenyzők átlagéletkora 25,37 év. Nyilván itt az U20-asok miatt, ott egyébként átlag 18 év az átlagéletkor, amikor arra szűrűnk.

Tehát a riporton több mindenre rá lehet szűrni, így például ha a TOP10 charton az USA-ra kattintunk látható fent, hogy az összes versenyző 7526, és ha a táblázatban látni akarjuk, hogy melyik versenyszámban voltak a legtöbben leszűrhető, hogy a 200 méteren. A legtöbb maratoni versenyző pedig kenyai (Ismerve az atlétika történetét ez nem meglepő adat). Itt tehát szépen ki lehet szűrőgetni a számunkra érdekes adatokat.

Az első oldalon szerepel még a magyarországi adatok gomb is, erre kattintva jutunk a másik riport oldalra, ahol csak a magyarországi adatokat jelenítettem meg.

A második oldalon tehát a magyarországi adatok elemzése található. Megszámoltam, hogy összesen hány magyar atléta vett részt a versenyeken és hogy összesen hány db verseny volt.

Itt is lehet szűrni az időintervallumra, illetve a nemre és a kor kategóriára.

Egy Clustered bar charton ábrázoltam a versenyzők számát versenyszámonként. Ebből egyébként jól látszik, hogy a kalapácsvetésben volt a legtöbb versenyző.

Még egy táblázatba tettem a helyszíneket és hogy az adott helyszínen mennyi verseny volt.  A verseny száma alatt egyébként azt értjük, hogy pl 100 méteres síkfutás, kalapácsvetés, távolugrás stb.  Az adatok szerintem nem teljesek, és nem pontosak, mert ha a budapesti világbajnokságra szűrünk, akkor azt láthatjuk, hogy 30 versenyző volt (tudomásom szerint 65), és hogy 50 verseny volt. Az adatforrást figyelem majd, illetve ha tudom jelzem is, hogy hiányos. (Nincs benne a 2 maratonista hölgy versenyzőnk se a budapesti világbajnokságról).

Szerepel még a világ adatok gomb, amivel visszanavigálhatunk az előző oldalra.

Összeségében szépen lehet az adatokból leszűrni, ami érdekel. Ami még érdekes lehet és esetleg egy külön oldalra tehető majd, az a versenyzők neve és hogy hol versenyzett és mikor és hogy milyen eredményt ért el. Pl. rászűrhetünk Usain Boltra, hogy mikor és hol futott, milyen eredménnyel. Ezt egy későbbi fejlesztésben fogom megcsinálni.

 

 

A teljes riport – (néhány másodperc míg a riport betölt)

<-Előző riport

Következő riport ->