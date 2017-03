Odpiranje slovarskih baz in s tem tudi posledično izboljšanje Googlovega prevajalnika

Inštitut za slovenski jezik in digitalizacija jezika

30. marec 2017 ob 14:52

Ljubljana - MMC RTV SLO/STA

Po portalu Fran, ki govorcem slovenščine daje dostop do slovarskih podatkov, je Inštitut za slovenski jezik Frana Ramovša ZRC SAZU začel odpirati večino jezikovnih virov za jezikovnotehnološke namene od 16. do 21. stoletja.

S tem želijo jezikovnim tehnologom omogočiti, da slovarske baze obdelajo s svojimi programi in izboljšajo na primer Googlov prevajalnik. Tako so napravili prvi korak k celovitejši digitalizaciji slovenskega jezika skladno z dogovorom, ki so ga sprejeli udeleženci razprave o jezikovnih virih in tehnologijah pod pokroviteljstvom ministrstva za kulturo.

Glede na ugotovitve te razprave, ki je potekala januarja, je vlada nedavno ustanovila svet za spremljanje razvoja jezikovnih virov in tehnologij, ki bo kot koordinacijsko telo skrbel za podporo celovitim rešitvam na področju digitalizacije slovenščine.

Prvi po prosti dostopnosti slovarjev

Pred letom in pol je inštitut vzpostavil slovarski portal Fran in s tem med evropskimi inštituti za jezik zavzel prvo mesto v prosti dostopnosti temeljnih in tem podobnih slovarjev, so tudi jezikovne vire za jezikovnotehnološke namene dali v odprti dostop kot prvi v Evropi oziroma na svetu. Ali so naredili prav ali ne, bo pokazal čas, je povedal predstojnik inštituta Marko Snoj.

Po novem bo odprti dostop imelo 16 virov. Med njimi so: Slovensko-nemški slovar Maksa Pleteršnika, Slovenski lingvistični atlas 1 in 2, Besedišče slovenskega jezika, Baza opisov slovnic in pravopisov, Vezljivostni slovar slovenskih glagolov Andreje Žele, Besedje slovenskega knjižnega jezika 16. stoletja, Slovar slovenskih frazemov Janeza Kebra in Slovenski pravopis iz leta 2001.



Na inštitutu načrtujejo odpiranje še več drugih virov, med njimi je Slovar slovenskega knjižnega jezika, za katere pa morajo pridobiti soglasja lastnikov materialnih avtorskih pravic oziroma njihovih dedičev. "To pa je vedno težava. Poglejte npr. Enciklopedijo Slovenije: država jo je financirala leta in leta, a ne bo nikoli druge izdaje, ker ne morejo pridobiti soglasja vseh avtorjev. Upam, da pri nas ne bo tako črno," je pojasnil predstojnik inštituta.

Odpiranje virov bo sicer po njegovih navedbah koristilo jezikovnim tehnologom, saj bodo slovarske baze, ki so za navadne uporabnike popolnoma neuporabne, lahko obdelali s svojimi programi in izboljšali na primer že prej omenjeni Googlov prevajalnik. Lahko bodo naredili svoje prevajalnike, razne vmesnike za pametne naprave, pregibnike, da bodo programi pravilno delili besede, da bodo našli pravilno obliko besede ipd.

Z malo domišljije je možno marsikaj

Na ta način bodo jezikovni tehnologi - tisti, ki so hkrati jezikoslovci in računalniško zelo izobraženi ter se spoznajo na podatkovne zbirke - lahko izboljšali uporabniške izkušnje, ne nazadnje za ljudi s posebnimi potrebami. "Marsikaj je mogoče iz tega narediti," pravi Snoj. Z malo domišljije za prihodnost bi se po njegovih besedah znalo zgoditi, da bi tudi digitalna asistentka Siri nekoč spregovorila v slovenščini. "Slovenščina je tako raziskana, imamo te baze podatkov, dajemo jih v javnost zastonj in brez kakršnikoli obveznosti, zdaj pa naj jezikovni tehnologi iz tega naredijo, kar pravijo, da znajo narediti," je zaključil predstojnik inštituta.

