Med ustanovami, ki so se želele pridružiti raziskovalnemu konzorciju, je bil tudi Inštitut za slovenski jezik Frana Ramovša, ki pa je bil iz njega izključen.

Kozma Ahačič. Foto: BoBo
Kozma Ahačič. Foto: BoBo

Predstojnik Inštituta za slovenski jezik Frana Ramovša ZRC SAZU Kozma Ahačič je za STA dejal, da so si sodelovanja želeli in da mu je žal, da morajo o tem govoriti tudi javno. "Doslej se nam je na tovrstnih razpisih vselej uspelo brez težav uskladiti, denimo Razvoj slovenščine v digitalni dobi, Povejmo itd. Kot vedno, smo tudi tokrat ponudili najboljše z vidika dorečenosti in gospodarnosti," je poudaril.

"Če nekoga ne želiš zraven, se vedno najdejo načini, kako ga zavrniti. Poudarjam, da ima vsak vodja konzorcija popolno pravico zavrniti kogar koli iz kakršnega koli vzroka(...) Mi pa imamo pravico povedati, da nismo bili vključeni v konzorcij," je Ahačič dejal za časopis Dnevnik.

Za kaj pravzaprav gre?
Raziskovalni konzorcij vodi Marko Robnik-Šikonja, predstojnik Laboratorija za kognitivno modeliranje na ljubljanski Fakulteti za računalništvo in informatiko, ki je pojasnil, da je razpis Gravitacije predvideval sodelovanje vrhunskih strokovnjakov in institucij z enega od štirih razpisnih področij, v tem primeru jezikovnih tehnologij. "Konzorcij pod mojim vodstvom smo oblikovale najboljše slovenske skupine na področju jezikovnih tehnologij: Univerza v Ljubljani s Fakulteto za računalništvo in informatiko ter Fakulteto za elektrotehniko, Inštitut Jožef Stefan in Univerza v Mariboru," pravi.

V predlogu projekta so naslovili aktualne raziskave na področju velikih jezikovnih modelov, njihovih izboljšav z dodatnim znanjem in za slovenščino ter za njihovo uporabo pri izboljšanju govornih tehnologij za slovenščino. Razvite osnovne metodologije nameravajo uporabiti za metodološko v svetovnem merilu povsem nove raziskave na področju digitalne humanistike – jezikoslovje, leksikografija, zgodovinopisje, folkloristika in pravo – zato v konzorciju sodelujejo tudi vodilne ustanove s tega področja: Inštitut za novejšo zgodovino, Filozofska fakulteta v Ljubljani, Inštitut IRRIS in Inštitut za Kriminalogijo pri Pravni fakulteti v Ljubljani.

"V skrbno zasnovanem projektu ni prostora za raziskave, ki ne sledijo konceptu projekta"
Sama prijava na razpis še ne pomeni dobljenega projekta in financiranja, pove Robnik-Šikonja, zato so v konzorciju skrbno pretehtali predlagane vsebine in pripraviti znanstveno odličen in organizacijsko ter finančno skrbno zasnovan projekt, v katerem ni prostora za raziskave, ki ne sledijo znanstveni odličnosti in konceptu projekta.

Podatkovna zbirka DIAtlas bo po besedah Kozme Ahačiča predstavljala eno najnaprednejših zbirk relacijsko povezanih narečnih podatkov na svetu, saj primerljive aplikacije v mednarodnem merilu še ni. Foto: Shutterstock
Podatkovna zbirka DIAtlas bo po besedah Kozme Ahačiča predstavljala eno najnaprednejših zbirk relacijsko povezanih narečnih podatkov na svetu, saj primerljive aplikacije v mednarodnem merilu še ni. Foto: Shutterstock

Potrdil je, da so se o sodelovanju v konzorciju pogovarjali tudi z Ahačičem, ki pa se po njegovih besedah ni želel vključiti v predlagani koncept projekta, "ampak je konzorciju ponujal druge, s konceptom projekta neusklajene, jezikoslovne raziskave, največ za izdelavo narečne podatkovne baze DIAtlas". Po njegovem mnenju so inštitut ZRC SAZU "obravnavali zelo korektno in jim ponudili tehnološko vrhunsko podporo s prilagajanjem velikih jezikovnih modelov za področje slovenske leksikografije, dialektov in zgodovinskega jezikoslovja", kar pa je Ahačič zavrnil.

Priprava končnega razvoja DIAtlas
Ahačič pravi, da so bili pripravljeni v okviru konzorcija oblikovati končni razvoj podatkovne zbirke DIAtlas, ki bo predstavljala eno najnaprednejših zbirk relacijsko povezanih narečnih podatkov na svetu, saj primerljive aplikacije v mednarodnem merilu še ni. Na Inštitutu poteka vzporedno s tem delom priprava in dokumentacija podatkovnega modela za opis slovenske narečne leksike, kar je lahko koristno za vključitev tovrstnega gradiva v druge leksikone oz. podatkovne baze. "Če želimo, da nas bodo pametne naprave nekoč razumele tudi v narečjih, je to nujen prvi korak," poudarja Ahačič.

Drugi doprinos bi bila po Ahačičevih besedah retrodigitalizacija Etimološkega slovarja slovenskega jezika Franceta Bezlaja, ki je za zdaj najobsežnejši urejeni vir etimoloških podatkov za slovenski jezik. Kot tretji doprinos pa je navedel vključitev podatkov o izgovoru tujih krajevnih in osebnih imen v morfološki leksikon. Te podatke je sicer težko pridobiti, mi pa bi jih sistematično uredili, je pojasnil.

"Nič od tega ni bilo sprejemljivo," je povedal Ahačič. "Zanimali so jih samo viri ali pa opravljanje dela/raziskav, ki ne sodijo na naše področje. Ampak vire na ZRC SAZU že tako ali tako objavljamo in odpiramo, saj smo eni od najbolj dejavnih na področju odprte znanosti," je poudaril Ahačič. Kot je še dodal, jih je še "zanimala evalvacija potencialnih izboljšav".
"Govorjenje o 'neprodajanju za vire in evalvacije' je strokovno povsem nesmiselno, pa meni Robnik-Šikonja. "Pri jezikovnotehnoloških nalogah tipično obstajajo tri faze: priprava jezikovnih virov, njihova tehnološka obdelava, denimo z velikimi jezikovnimi modeli, in evalvacija narejenega. Inštitutu smo ponudili obe fazi, za kateri je usposobljen, več in drugače pač ne gre."