"Angleški analitiki ocenjujejo, da je nogomet za od 10 do 15 let za bejzbolom pri uporabi statistične analitike," navaja Matjaž Homar, gost 15. oddaje podkasta SOS odmev, kjer se je pogovor vrtel o napredni statistiki oziroma pravilneje o temeljiti statistični analitiki v nogometu. MMC-jeva novinarja Slavko Jerič in Toni Gruden sta k pogovoru povabila nogometnega navdušenca in spretnega številkarja, ki ga na Twitterju slovenska nogometna javnost pozna pod imenoma @Gospod_profesor in @Opta_Zabar.

Lionel Messi je nogometaš, ki najbolj presega število pričakovanih golov, kot jih daje statistični model xG. Po Understatu je Messi v zadnjih petih sezonah La Lige dosegel 30 golov več, kot bi se jih pričakovalo. Foto: Reuters

Tri leta po uro dnevno za bazo Olimpije
"Res sem profesor matematike, ob tem se pa ukvarjam še z nogometno statistiko. Se trudim, mislim, da tega manjka v našem nogometnem prostoru,"
se predstavi Homar, ki kot Opta Žabar predstavlja statistične bisere o NK-ju Olimpiji. Prav v preteklih dneh je pridobil še točne postave in menjave z manjkajočih petih pokalnih tekem Olimpije. Zdaj so popisane prav vse tekme Olimpije od osamosvojitve leta 1991 dalje do danes, kar omogoča Gospodu profesorju, da v vsakem trenutku iz svoje baze podatkov strese kakšen zanimiv podatek, na primer o prihajajočem večnem derbiju v finalu Pokala Slovenije.

"Zdaj to delam dobra tri leta. Pišem skoraj vsak dan od ene ure do ure in pol. Ogromno podatkov, tudi približno še nisem končal, a imam bazo, s katero lahko operiram, da podajam zanimive informacije," svoj statistično-nogometni konjiček povzame Homar, ki od sezone 2014/15 spremlja tudi naprednejše zadeve, kot so streli v okvir in mimo vrat, posest žoge, koti, prekrški in prepovedani položaji. Vse, kar se da dobiti prek uradne strani Prve lige TS.

Vabljeni k sodelovanju

Pred desetletjem prvič začivkala Opta
Statistična analiza nogometa je v močnem zaostanku zlasti v primerjavi s severnoameriškimi športi. Še podajalci za gole se izpostavljajo šele zadnjih 20 let. Prav počasi se drobi nogometna igra v druge podatke in številke, pri čemer je pionirsko delo opravila Opta. Rojena leta 1996/97, od svetovnega prvenstva 2006 dalje poznamo Opto kot razpečevalca nogometnih podatkov v živo med samimi tekmami. "Leta 2009 prvič čivkne @OptaJoe in vse drugo je zgodovina," izpostavi Gruden.

Statistična analiza ne ubija duše nogometa. Če te zanima, lahko poiščeš morje podatkov. Nihče te ne sili vanje, popolnoma mirno si lahko ogledaš tekmo tudi po televiziji, kjer je v prenosih zelo malo statistke. Na drugih zaslonih je pa ogromno informacij.

Matjaž Homar

Posest žoge zaradi Barce postane merilo
"Bejzbol je bil med orači ledine pri statistični analizi. Kdor še ni videl filma ali knjige Moneyball, naj si to pogleda,"
priporoča Jerič tudi kot filmski poznavalec, pri čemer je v znamenitem filmu iz leta 2011 opisana zgodba o ekipi Oakland Athletics in njihovi nenavadni sezoni 2002, kjer so moštvo sestavili na podlagi statističnih kazalcev.

"O posesti žoge ni nihče govoril do sezone 2008/09, ko je Barcelona postala prvak Evrope s to svojo značilno igro," Homar poudari, da tudi tako osnoven podatek, kot je prevlada pri posesti žoge, ki je neločljivo povezana z nogometno filozofijo Pepa Guardiole, redno v nogometu srečujemo šele eno desetletje.

Algoritemske ocene govorijo o vpletenosti v igro
Na MMC-ju novinar Toni Gruden že od sezone 2008/09 pripravlja rubriko nogometne ladje s pregledom iger najboljših slovenskih nogometašev na tujem. Od sezone 2014/15 je v tabelo dodal tudi ocene portala WhoScored, pozneje še SofaScora, ki nadomeščata subjektivne novinarske ocene. Oboji so sestavili svoj algoritem, ki črpa iz podatkov Opte. WhoScored zajema iz 200 različnih dogodkov, medtem ko SofaScore navaja, da se na povprečni tekmi zgodi 1.500 dogodkov, ki vplivajo na oceno.

Evropejci so bili vedno manj nagnjeni k zbiranju statistike, po drugi strani pa je nogomet precej specifičen. Ključni dogodki, ki so najzanimivejši - to so goli - padejo dva ali trije v povprečju na tekmo.

Slavko Jerič

"Gre za nam dobro poznani študijski sistem ocen. Pri obeh so ocene pod čistih 6 nezadostne in redke, a zato je že nad 7 spodobna ocena, nad 7,5 zelo dobra. Povprečna ocena pri WhoScoredu je 6,67, pri SofaScoru 6,86," razloži Gruden sistem algoritemskih ocen in poudari, kako jih sam interpretira: "Predvsem gre za oceno vpletenosti igralca v tekmo in ključne dogodke na njej. Tako v dobrem kot v slabem."

Hiba – ne zaznavajo napačnega pokrivanja, zamujanja v prostoru
Svoj pogled na algoritemske ocene je podal profesor matematike Homar: "So zelo zanimive, a tako kot vse številke morajo imeti svoj kontekst. Ampak merijo samo, kaj se zgodi, ko ima igralec žogo ali ko ji je nasproti. Ne zaznavajo, kje bi nogometaš moral biti, a ga ni bilo. Grobe, neposredne napake zaznavajo, ne pa napačnega pokrivanja in zamujanja v prostoru, ko je branilec 10 metov oddaljen od napadalca. Sam imam te ocene v čislih, a treba je imeti zadržek in jih pravilno umestiti."

Primer algoritemskih ocen za Manchester City - Tottenham 4:3 v Ligi prvakov

Na podlagi zgodovine vseh strelov in golov do xG modela
V zadnjih dveh sezonah je pri analizi tekem, zlasti v domovini nogometa na Otoku, izpostavljena kratica xG, ki se zdaj redno pojavlja v televizijskih studiih (začelo se je z BBC-jevim Match Of The Day, ki ga vodi Gary Lineker), člankih in družbenih omrežjih.

Najboljši primer uporabe napredne statistike in orodij tudi pri reprezentancah je Anglija na zadnjem svetovnem prvenstvu. Selektor Gareth Southgate je šel v ZDA k NBA-, NFL- in MLB-klubom. Ob omejenem številu tekem in še bolj treningov je pri reprezentanci najlažje uvesti novosti za prekinitve. Kar je tudi pomemben razlog za ogromen porast golov iz prekinitev v Rusiji 2018.

Toni Gruden

"Pričakovani goli (expected goals = xG) je nova metrika, ki se je v Angliji začela uporabljati tudi v medijih, klubi pa jo uporabljajo tri, štiri leta. Gre za preprosto orodje, ki ocenjuje, kako kakovosten je bil strel. V ozadju gre za matematičen model, kakšna bo verjetnost, da neki strel konča kot zadetek. Če ima strel vredno 0,2, to pomeni, da bosta iz desetih istih strelov dva gola, torek 20-odstotna verjetnost zadetka," osnovni pojem xG razloži Homar.

Novo analitično orodje je prav tako začela Opta, ki je analizirala več kot 300 tisoč strelov, zdaj jih imajo že pred pol milijona. Gre za zgodovinske podatke za vsak strel pod določenim kotom, razdaljo od gola, položaj strelca in vratarja, upošteva se odboj žoge pred strelom. Pri tem se pojavlja vprašanje, ali sploh obstajajo stoodstotne priložnosti.

Po xG prišli tudi do xA – pričakovanih podaj
"Ne, ni stoodstotnih priložnosti. Strel z vrednostjo 1 pri xG modelu ne obstaja. To ne gre že po čisti matematični teoriji verjetnosti. Mislim, da če gre napadalec malce s strani ena na ena z vratarjem, je to ovrednoteno kot 0,37. Vsi streli nad 30 odstotki verjetnosti gola so opredeljeni kot velike priložnosti,"
pojasni Homar. Enajstmetrovke so tako opredeljene s faktorjem 0,74, saj 26 odstotkov najstrožjih kazni branijo vratarji ali ustavi okvir vrat ali pa zgrešijo clj.

A pri tem sodobna analiza nogometa ni ustavila, temveč je v družbi xG pogosto tudi xA. "V skladu s pričakovanimi goli se je razvila tudi metrika za pričakovane podaje (xA), ki vodijo do golov. Medijsko se ne uporablja, ker gre za bolj kompleksno. Analizirali so vse mogoče podaje, povsod na igrišču, ki so privedle do golov. Gre za metriko, ki je uporabnejša za skavte in same klube," dodatno obrazloži gost podkasta.

Najbolj bizarna tekma tekoče sezone v Top5 ligah je bilo soočenje Atalanta - Empoli v 32. krogu Serie A, ki je po xG modelu dala izid 5,06 proti 0,22. Zaokroženo bi moral Iličićev klub zmagati s čisto petardo, a končalo se je z 0:0 – kljub kar 18 strelom v okvir vrat po neverjetnih 47 poskusih strelov. Vratar Bartlomiej Dragowski je s 17 obrambami (en strel je blokiral branilec na golovi črti) postavil rekord Serie A po številu obramb - Opta ima zbrane podatke od sezone 2004/05 dalje. Tako algoritem WhoScored kot SofaScore sta vratarsko predstavo Poljaka nagradila s čisto desetico. Foto: MMC RTV SLO/Understat
Dejavnki za izračun xG

- razdalja od gola
- kot strela
- način sprejema žoge
- ali gre za ena na ena
- kakšna je bila podaja
- iz igre ali prekinitve
- strel po preigravanju
- predhodno ubranjena žoga

Messi zabija odločno preveč, Ronaldo pa premalo?
Na nogometno obarvanih družbenih medijih je v zadnjem tednu veliko pozornosti pritegnil graf o presežku in primanjkljaju golov glede na xG. Na pozitivni strani je po aplikaciji WyScout razred zase Lionel Messi, ki je dosegel 13,1 gola več od pričakovanih, na drugi strani je Cristiano Ronaldo z 1,6 gola premalo. (Po xG modelu Understata, ki je prosto dostopen, je razlika manjša -8,95 proti +2,91 za Argentinca. Messijev xG je 24,05, v La Ligi pa je pri 33 golih; Ronaldo ima v Serii A xG 21,91, dosegel pa je 19 golov).

"Ronaldo me ne preseneča, ker sem imel v glavi, da je CR7 vedno na ali pri vrhu po številu strelov, ni pa imel ekstremno več golov, se pravi je imel slabši odstotek izkoriščenih strelov. A po drugi strani tak podatek tudi razkriva vrednost igralca, ki si ustvari neverjetno število priložnosti, kar je dodana vrednost za ekipo," je Jerič opozoril, da se da podatka brati na dva precej različna načina. "Messi konstantno presega pričakovanja," dodaja Homar.

Eno izmed novejših orodij, ki posredujejo nogometnemu gledalcu globljo sliko, so vročinski odtisi oz. heat map. Na sliki sezonski odtis Josipa Iličića v Serii A, kjer v dresu Atalante igra kot drugi, podporni napadalec ali kot izrazito napadalno usmerjeni vezist, ki operira po desni strani. Foto: MMC RTV SLO/SofaScore

Kako sploh uporabiti vse zbrane podatke?
Omizje se je dotaknilo tudi namenskih nogometnih aplikacij, kot sta inStat in WyScout, ki jih s pridom uporabljajo tudi slovenski klubi. Videoposnetki vseh mogočih tekem, vrhunci, kompilacije posameznih nogometašev, taktične analize nasprotnikov, podrobna ogledniška poročila ... Z njimi velika večina manjših klubov išče pot do zmanjšanja razlike do največjih in najbogatejših. Trojica se je zazrla tudi naprej, kaj se še pričakuje in kje se iščejo številke, ki bi dale majhno prednost tistim, ki najdejo ustrezno korelacijo in znajo to tudi vpeljati v igro na zelenici.

"Prihodnost statistične analitike v nogometu je, kako meriti utrujenost igralcev, preprečevanje poškodb. Kako izmeriti kemijo med nogometaši, kar je najpomembnejša stvar. Če Liverpool 2005 ne bi imel kemije, ne bi osvojil Carigrada. Dobil je Ligo prvakov zaradi srca. In takšne stvari se želi meriti," razmišlja o nogometni statistični analizi prihodnosti Matjaž Homar.

Ob tem voditelj Slavko Jerič poudari glavni izziv: "Meri, analizira se ogromno podatkov, da dobimo vrednost igralcev. Ključno vprašanje ostaja, kako vse to uporabiti." Na koncu šteje izid, ki ga v nogometu dajo goli. Lepi, grdi, uigrani ali naključni.

Vabljeni k poslušanju 15. podkasta SOS odmev