Četrtek, 3. 2. 2022, 22.05
2 leti, 10 mesecev
Intervju: prof. dr. Jure Zupan
"Kakovost vsake napovedi je odvisna predvsem od kakovosti vhodnih podatkov"
Za dolgoročne napovedi poteka epidemije še nimamo dovolj dolgoročnih podatkov o okužbah in vedenju različnih delov populacije, opozarja znanstvenik, ki velja za enega od očetov slovenske kemometrije in uporabe umetne inteligence v kemiji.
Zaradi epidemije in zagotovo tudi želje vseh nas po njenem čimprejšnjem koncu je širša javnost – tudi po zaslugi medijev, ki jih radi objavljajo – postala bolj pozorna na matematične modele, ki poskušajo napovedati nadaljnji potek pandemije ali vsaj, kaj nas zaradi nje in ob njej čaka v naslednjih tednih.
O tem, kaj ti modeli omogočajo in česa ne ter koliko se nanje lahko zanesemo, smo se pogovorili z znanstvenikom, ki jih pri svojem znanstvenem in raziskovalnem delu uporablja že dobrega pol stoletja.
Prof. dr. Jure Zupan je svoje dolgoletno raziskovalno delo okronal z več kot 200 znanstvenimi članki ter 15 knjigami s področij kemijske informatike, računalniške lingvistike in drugih tematik, pri katerih je sodeloval kot samostojni avtor, soavtor ali urednik pri tujih in domačih založbah.
Po diplomi iz fizike leta 1966 in doktoratu iz kemijske fizike leta 1972 je svoje dolgoletno raziskovalno delo okronal z več kot 200 znanstvenimi članki ter 15 knjigami s področij kemijske informatike, računalniške lingvistike in drugih tematik, pri katerih je sodeloval kot samostojni avtor, soavtor ali urednik pri tujih in domačih založbah. O odmevnosti njegovega znanstvenega dela priča tudi več kot osem tisoč navedb njegovih del v drugih znanstvenih objavah, kot gostujoči profesor pa je raziskoval in predaval na švicarski zvezni tehnični univerzi ETH v Zürichu, ameriškem nacionalnem inštitutu za zdravje NIH (National Institutes of Health) v Bethesdi v predmestju ameriške prestolnice, na tehnični univerzi v Münchnu, univerzi VUB (Vrije Universiteit Brussel) v belgijskem glavnem mestu in na univerzi v španski Taragoni. Na Kemijskem inštitutu v Ljubljani se je zaposlil kmalu po zagovoru doktorske disertacije, svoje znanstveno delo pa tam nadaljuje tudi po upokojitvi kot zaslužni raziskovalec.
"Vsi modeli v znanosti dajejo napovedi samo do določenih meja in v določenih pogojih."
Kaj so matematični modeli napovedovanja in kje jih znanstveniki najbolje in najraje uporabljajo?
Modeli, njihovo postavljanje, testiranje in uporaba so osnovni in hkrati glavni postopek oziroma orodje v znanosti. Vse, kar v znanosti računamo, napovedujemo ali razlagamo, je osnovano na modelih: ali gre za navaden linearni model Newtonovega zakona F = ma, za kompleksen Standardni model, ki opisuje relacije med osnovnimi delci, ali pa za tako imenovane ekspertne modele diagnosticiranja v medicini (if-else).
"Relevantnost podatkov je zelo pomembna. Če razložim na preprostem primeru, za izračun gibalne količine G na podlagi modela G = masa krat hitrost, temperatura ni relevanten podatek."
Kako zanesljivi so matematični modeli pri napovedovanju poteka dogajanj?
Vsi modeli v znanosti dajejo napovedi samo do določenih meja in v določenih pogojih. Kakovost modelnih napovedi je odvisna od več dejavnikov. Najprej od tega, ali so vhodni podatki, ki jih v model dajemo, relevantni za odgovore, ki naj bi jih model dal. Če razložim na preprostem primeru, za izračun gibalne količine G na podlagi modela G = masa krat hitrost, temperatura ni relevanten podatek.
Relevantnost najbrž ni edino merilo …
Poleg relevantnosti podatkov sta pomembni tudi točnost in natančnost podatkov, ki jih v model dajemo. Zelo je pomembno tudi območje vrednosti vsakega podatka. Če želimo z linearnim modelom G = mv na primer računati gibalno količino delca s hitrostjo v, ki je blizu svetlobne, torej daleč od običajne hitrosti, je treba uporabiti spremenjen model, ki ni več linearen.
Kateri modeli so v znanosti najboljši?
Najboljši modeli so osnovani na matematičnih (analitičnih) povezavah med vhodnimi in izhodnimi spremenljivkami (odgovori). To so na primer fizikalni ali kemijski modeli (Newtonov, Ohmov, Boyle-Mariottov, Gay-Lussacov zakon, Schrödingerjeva enačba, Standardni model osnovnih delcev in drugi).
"Poleg relevantnosti podatkov sta pomembni tudi točnost in natančnost podatkov, ki jih v model dajemo. Zelo je pomembno tudi območje vrednosti vsakega podatka."
Kaj pa zunaj fizike in kemije?
V preostalih vedah večinoma prevladujejo modeli, ki temeljijo na statističnih in grafičnih metodah in/ali tudi na izkušnjah (izkustvenih pravilih). Najbolj znani med njimi so tako imenovani ekspertni sistemi (sistem vprašanj in odgovorov v logični mreži testov "if-then") in modeli na temeljih umetne inteligence (AI). Prvi so se uveljavili predvsem v humanistično-družboslovnih vedah in medicini.
Od česa sta odvisni njihovi pravilnost in zanesljivost?
Pravilnost in zanesljivost modela sta odvisni od več dejavnikov. Najpomembnejši lastnosti sta relevantnost in kakovost podatkov. Drug pomemben dejavnik je kakovost metode, s katero je bil model preizkušen in validiran. Zelo pomembno je tudi numerično področje (območje) testnih preizkusov, na katerih je model dal pravilen odgovor.
"Najboljši modeli so osnovani na matematičnih (analitičnih) povezavah med vhodnimi in izhodnimi spremenljivkami (odgovori)."
Napovedi so v večini odvisne od zajema podatkov – kako smo lahko prepričani, ali so vstopni podatki in parametri pravilni ter reprezentativni?
Izbor podatkov za izdelavo modela je ključen. Postopek izbora nikakor ni enoznačen ali enostaven. Posebej težak je v primerih, pri katerih je na voljo stotine, tisoče in celo več različnih vrst podatkov. Zato je naloga raziskovalcev, da iz velike množice možnih določijo najprej primerno število, nato pa izberejo še najbolj relevantne podatke, s katerimi želijo posledično izdelati dober napovedovalni model. Poleg posebnih metod vzorčenja obstajajo tudi specializirane optimizacijske metode, s katerimi poskušamo doseči optimalen izbor števila in vrste spremenljivk hkrati (na primer genetski algoritem).
"Izbor podatkov za izdelavo modela je ključen. Postopek izbora nikakor ni enoznačen ali enostaven. Posebej težak je v primerih, pri katerih je na voljo stotine, tisoče in celo več različnih vrst podatkov."
Rezultate je mogoče "prirediti" tudi s spreminjanjem predpostavk v matematičnem modelu – ali to odpira možnost zlorab?
Rezultati so vedno posledica izbora vhodnih podatkov in/ali parametrov modela. Spreminjanje parametrov modela praviloma ni zloraba, saj z nastavitvijo parametrov modelu spreminjamo področje, natančnost, zanesljivost in/ali vrsto napovedi. Modeli so namreč lahko zelo kompleksni in potrebujejo za pravilno delovanje pravilno nastavitev cele vrste parametrov ali celega niza enačb z zelo različnimi parametri. Slabe ali celo napačne rezultate dobimo le pri napačnih interpretacijah izhodnih podatkov, ob napačnih vhodnih podatkih in/ali z neprimerno izbiro parametrov modela oziroma več modelov. O zlorabi pa govorimo le takrat, ko so napake v model vnesene namerno ali pa so rezultati namerno interpretirani napačno.
"Rezultati so vedno posledica izbora vhodnih podatkov in/ali parametrov modela. Spreminjanje parametrov modela praviloma ni zloraba, saj z nastavitvijo parametrov modelu spreminjamo področje, natančnost, zanesljivost in/ali vrsto napovedi."
Ali je zapletene pojave, kot je epidemija, sploh mogoče zanesljivo in znanstveno veljavno napovedovati z razmeroma preprostimi matematičnimi modeli?
Izraz "napovedovati epidemijo" je neprimeren in neustrezen. Napovedujemo, če že kaj, le potek rasti ali upad števila okužb, bolnikov ali nekih drugih spremenljivk oziroma dejavnikov.
Kakšna so merila za uporabnost takšnih napovedi?
Vsak model je mogoče primerno preizkusiti ter za natančnost in zanesljivost njegove napovedi matematično izračunati statistične napake. Validacija modelov je področje, ki ga znanost obvlada in je v njenem standardnem repertoarju dela. Preprost način validacije zahteva razdelitev podatkov v tri, po velikosti in strukturi približno enake skupine (učno, testno in validacijsko). S prvima dvema skupinama model izdelujemo in testiramo v izmenjajočem se ritmu toliko časa, da dosežemo najboljše mogoče napovedi, to je največje število pravilnih napovedi. Zadnjo, validacijsko skupino, ki je v celotnem postopku prej nismo uporabili, uporabimo le enkrat − za končno ugotavljanje kakovosti napovedi modela.
"Izraz 'napovedovati epidemijo' je neprimeren in neustrezen. Napovedujemo, če že kaj, le potek rasti ali upad števila okužb, bolnikov ali nekih drugih spremenljivk oziroma dejavnikov."
Ali je sploh upravičeno javnost seznanjati z modeli napovedi epidemije, če ne vemo (in številni tudi ne razumejo), ali so ti rezultati res smiselni?
Ko so modeli validirani, je zanesljivost napovedi znana − navadno v odstotkih. Če delamo modele za povsem nove pojave, je v začetku število podatkov malo in so zato modeli ter njihove napovedi slabše. Z naraščanjem števila podatkov, ki jih vnašamo, izboljšujemo model. Če je izbrana modelna metoda ustrezna, se polagoma veča tudi odstotek pravilnih napovedi. Ker lahko večamo tudi število validacijskih primerov, se posledično večata tudi robustnost in zanesljivost napovedovalne zmogljivosti tega sistema.
Kaj pa, če se vhodni podatki začnejo spreminjati v neko nepričakovano smer?
V primerih, ko se vhodni podatki začnejo spreminjati v drugo smer (na primer pojav nove različice virusa), se nujno nekaj časa slabšajo tudi napovedovalne zmogljivosti modela, vendar ta, če je izbran pravilno, začne nove podatke z novimi rezultati upoštevati tako, da spreminja svoje parametre. Posledično se začne izboljševati tudi napovedovalna zmogljivost modela.
"Če delamo modele za povsem nove pojave, je v začetku podatkov malo in so zato modeli ter njihove napovedi slabši. Z naraščanjem števila podatkov, ki jih vnašamo, izboljšujemo model." Kako javnost usposobiti za pravilno razlaganje takšnih napovedi?
Pomanjkanja razumevanja tehničnih podrobnosti, kot so natančnost, zanesljivost, napovedovanje, testiranje, validacija in drugo, znanost ne more odpraviti, to lahko stori le izobraževalni sistem, ki mu lahko deloma pomagajo tudi mediji. Namen je, da določene izraze in postopke, o katerih govorijo, pišejo in razlagajo, uporabljajo in prikažejo na razumljiv način.
Ali bi si vi upali napovedati nadaljnji potek epidemije?
Ljudem, ki se ukvarjajo z omenjenimi modeli, je dobro zaupati, da obvladajo svoje delo. Napovedovanje je lahko dolgoročno ali kratkoročno. Kratkoročne napovedi so verjetno povsem ustrezne in zanesljive, za dolgoročne napovedi pa je količina obstoječih podatkov o okužbah in posledicah ter o ravnanju različnih delov populacije ob morebitnih ukrepih v prihodnosti še premajhna, da bi lahko napovedovali potek razvoja epidemije.
5