Slovenski jezikovni model, podoben kot ChatGPT

Na praktično vsa vprašanja nam bo lahko odgovoril jezikovni model, ki ga razvijajo v Centru za jezikovne vire in tehnologije (CJVT). Tudi na specifično slovenska vprašanja, kot sta: "Kako speči potico? O čem govori film Kekec?"

Za zdaj 10 milijard besed od minimalno potrebnih 40 milijard
Za vzpostavitev slovenskega modela morajo strokovnjaki zbrati skoraj vse, kar je bilo kadar koli napisanega v slovenskem jeziku. "In potem naučimo ta model, da od sebe daje stvari, ki so na neki način podobne temu, kar dela ChatGPT," je za Televizijo Slovenija povedal vodja CJVT-ja Simon Krek.

Po Krekovih besedah imajo zaenkrat korpuse, v katerih je približno 10 milijard besed, potrebovali pa bi jih vsaj 40 milijard. Za zbiranje besedil se nameravajo med drugim obrniti na Narodno in univerzitetno knjižnico (NUK), na RTV Slovenija in tudi druge ustanove. Krek je dodal še, da morajo imeti "neke vrste nadzor nad tem, v končni fazi tudi v smislu etičnih vprašanj, kaj ta besedila od sebe dajejo, in v tem smislu gre za neko jezikovno suverenost."

Poslanstvo CJVT-ja je načrten in sistematičen dolgoročni razvoj tehnologij, virov in orodij za slovenski jezik, ki zagotavlja ustrezno jezikovno opremljenost slovenščine v 21. stoletju. Foto: CJVT
Poslanstvo CJVT-ja je načrten in sistematičen dolgoročni razvoj tehnologij, virov in orodij za slovenski jezik, ki zagotavlja ustrezno jezikovno opremljenost slovenščine v 21. stoletju. Foto: CJVT

Konec projekta čez slaba tri leta
Projekt, ki se bo končal čez nekaj manj kot tri leta, se financira iz Načrta za okrevanje in odpornost, se pravi nacionalnega programa reform in naložb. Pravzaprav bo to nadaljevanje tega, kar so že razvili, na primer program za preverjanje vejic, strojni prevajalnik in program za prepoznavanje govora. Razvijajo tudi sistem za sprotno prevajanje, v katerem razpoznavalnik govora posluša govorca in sproti prevaja iz angleškega v slovenski jezik, je za TV Slovenija poročala Darja Zupan.

CJVT je enota Univerze v Ljubljani, namenjena znanstvenemu raziskovanju, vzpostavljanju in vzdrževanju temeljnih digitalnih jezikovnih virov in jezikovnotehnoloških orodij za sodobni slovenski jezik, ki so praktično uporabni in dostopni na spletu. Center deluje v okviru Mreže raziskovalnih infrastrukturnih centrov na petih članicah ljubljanske univerze.


Tudi oddaja Ugriznimo znanost je bila na Prešernov dan posvečena jezikovnim tehnologijam ter med drugim vprašanjem, kot sta, zakaj so uporabne in katere so že na voljo.

Ugriznimo znanost: Digitalna slovenščina