Zaživela je Gigafida 2.0, ki vsebuje več kot milijardo slovenskih besed

Posodobljena različica referenčnega korpusa pisne slovenščine

13. junij 2019 ob 19.34 • Ljubljana - MMC RTV SLO, STA

Gigafida 2.0 je posodobljena različica referenčnega korpusa pisne slovenščine, ki zajema dnevne časopise, revije, izbrani nabor spletnih besedil in knjižne publikacije različnih vrst, pri čemer vsebuje 1,1 milijarde besed.

Novo različico korpusa Gigafida, torej Gigafida 2.0 je danes predstavil Center za jezikovne vire in tehnologije. Foto: CJVT

Kot so zapisali pri Centru za jezikovne vire in tehnologije Univerze v Ljubljani, so ustvarjalci Gigafide 2.0 besedila izbrali in strojno obdelali z namenom, "da bi korpus kot vzorec sodobne standardne slovenščine lahko služil za jezikoslovne in druge humanistične raziskave, izdelavo sodobnih slovarjev, slovnic, učnih gradiv in razvoj jezikovnih tehnologij za slovenščino".

Korpus obogatili z dvema skupinama besedil
Za novo različico so v korpus dodali dve skupini besedil: "Vsebinsko posodobitev prinašajo besedila izbranih spletnih besedilodajalcev z večjo produkcijo (npr. novičarski portali, dnevni časopisi ipd.). Na drugi strani smo dodali besedila, ki so bila v predhodni različici korpusa slabše zastopana, npr. šolska gradiva in leposlovna besedila."

Gigafida 2.0 je v primerjavi s predhodnimi različicami korpus standardne slovenščine, saj so odstranili večino besedil, ki so vsebovala nestandardne jezikovne značilnosti, na primer uporabniške komentarje z novičarskih forumov, so še dodali. Nadalje so odstranili podvojena besedila oziroma besedilne fragmente in izpopolnili strojno jezikoslovno označevanje ter vnesli manjše spremembe pri zasnovi uporabniškega vmesnika.

Gigafida 2.0

Gigafida 2.0 je dosegljiva na tej povezavi. Za jezikoslovno rabo je korpus prosto dostopen tudi v konkordančnikih NoSketchEngine, Kontext in v orodju SketchEngine. V teh orodjih je dosegljiv tudi korpus Gigafida 2.0 Proto, v katerem so ohranili podvojene besedilne fragmente. Proto različica vsebuje 1,8 milijarde besed.

Komu je namenjena Gigafida 2.0?
Korpus je namenjen širši rabi, med ciljnimi skupinami "so denimo lektorji, prevajalci, učitelji slovenščine v osnovnih in srednjih šolah, njihovi učenci, tisti, ki se slovenščine učijo kot drugega ali tujega jezika, in podobni uporabniki".