Projekt Embeddia velja za projekt t. i. medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih. Foto: EESC

Glavni cilj projekta je z uporabo medjezikovnih tehnologij za manjše jezike, med njimi tudi za slovenščino, ustvariti orodja, ki že obstajajo v večjih jezikih in medijem pomagajo pri ustvarjanju vsebin. V okviru tega se obeta tudi sodelovanje z Multimedijskim centrom naše hiše.

V času multikulturne Evrope je dostop do osnovnih virov informacij, kot so lokalne novice in vladne storitve, zaradi raznolikosti sedemintridesetih jezikov EU-ja še zmeraj zelo omejen. Da bi ta lahko v prihodnosti uresničila pravičen in odprt internet, so nujno potrebna nova orodja, ki bodo omogočila visoko kakovostne pretvorbe med jeziki.

Projekt Embeddia velja za projekt t. i. medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih.

"Ta projekt je bil predložen na evropski razpis leta 2018 za medjezični internet nove generacije," pove Nada Lavrač z Instituta "Jožef Stefan", ki je glavni koordinator projekta Embeddia.
V projektu sodeluje deset partnerjev. Med temi je šest akademskih in štirje industrijski ter tri medijske hiše: finska agencija STT, zagrebška Styria Medijski Servisi in estonska AS Express Meedia, ki so njihovi končni uporabniki.

"Poleg Instituta "Jožef Stefan" so tukaj tudi fakulteta za računalništvo in informatiko, britanska univerza Queen Mary iz Londona, edinburška univerza, francoska univerza iz La Rochella in helsinška univerza, s katerimi že vrsto let sodelujemo in smo skupaj izvedli že veliko evropskih projektov. Okrog tega se je združilo še veliko drugih partnerjev," pojasni Lavračeva.

Na Inštitutu "Jožef Stefan" je za projekt odgovoren Odsek za tehnologije znanja, katerega vodja je Lavračeva: "Cilj projekta je razviti nove tehnologije za obdelavo naravnega jezika, s katerimi bi lahko presegli meje med jeziki in bi tehnologije, ki so že dobro razvite na velikih jezikih, kot so npr. angleščina, francoščina in nemščina, na neki način prenesli tudi na manjše jezike, kar vključuje slovenščino, hrvaščino, estonščino, finščino in še več drugih jezikov."

Tehnologije, ki jih bodo razvili skupaj z omenjenimi medijskimi hišami, bodo uporabne za filtriranje komentarjev na uporabniško generiranih vsebinah na spletu, za analizo novic in polavtomatsko generiranje novic iz podatkov, še pojasni Lavračeva: "Gre za zelo konkretne tehnologije, ki jih te medijske hiše v vsakodnevnem delovanju nujno potrebujejo. Styria npr. ima zaposlene ljudi, ki že filtrirajo novice, ki vsebujejo neprimerni ali sovražni govor. To je ena izmed nalog, ki je že precej znana, medtem ko so naloge analize novic in prepletanja novic za zdaj manj poznane. Finsko agencijo STT tako izredno zanima pisanje o Finski v tujini. In do iskanih podatkov lahko pridejo s t. i. asociativnim iskanjem." Za sodelovanje in preizkus omenjenih tehnologij potekajo pogovori tudi z Multimedijskim centrom naše hiše.

O tem, kakšno vlogo ima umetna inteligenca pri analizi delovanja medijev in razvijanju algoritmov za medjezikovne povezave, pojasni Marko Robnik Šikonja, profesor na ljubljanski fakulteti za računalništvo in informatiko, ki tudi sodeluje pri Embeddii: "Zadnji uspehi na področju umetne inteligence, ki so v svetu zelo odmevali, kot so npr. prepoznavanje govora, zmagovanje računalnikov v nekaterih igrah, prepoznavanje objektov na slikah itn., so pravzaprav rezultat teh tehnologij globokih nevronskih mrež, ki jih bomo tudi mi uporabili v tem projektu. Pri uporabi na področju jezika pa je te tehnologije treba do neke mere prilagoditi tudi manjšim jezikom, saj so precej drugačni od angleškega, v katerem večina raziskovalcev dela."

Med pričakovanimi izzivi projekta Embeddia Šikonja izpostavi naslednje: "Največja ovira je dostopnost teh jezikovnih virov v manjšinskih jezikih. Slovenščina je sicer glede teh osnovnih korpusov dobro podprta, kar pa zadeva semantične jezikovne vire, pa je naš jezik precej šibek. Tako bomo nekatere stvari poskušali s temi tehnologijami nadomestiti, druge pa prenesti."

Projekt Embeddia: Medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih, ki bo potekal tri leta, je vreden tri milijone evrov, od česar bo evropski program Obzorje 2020 koordinatorju projekta prispeval 530 500 evrov.