ieškoti

Andrius Utka

Docentas, Vytauto Didžiojo universitetas

Pranešimo tema: Lietuvių kalba ir dirbtinis intelektas: dabarties situacija ir ateities perspektyvos

21 amžiaus antrajame ir trečiajame dešimtmečiuose kalbos technologijos patyrė tikrą revoliuciją – mašininio mokymosi technologija evoliucionavo iki technologijų, kurios gali palaikyti pokalbį su žmogumi, generuoti rišlų tekstą, versti, spręsti sudėtingus uždavinius, padėti žmogui profesinėje ir kasdieninėje veikloje. Šiandien visų šitų pokyčių centre yra neuroniniais tinklais paremtas gilusis mašininis mokymasis, kuris leidžia sukurti galingas kognityvines platformas – didžiuosius kalbos modelius (DKM). 2022 m. pabaigoje „OpenAI“ kompanijos pristatytas „ChatGPT“ pokalbių robotas visam pasauliui parodė, kokios didelės yra šios technologijos galimybės. Nenuostabu, kad tai sukėlė didžiulį susidomėjimą tiek visuomenėje, tiek akademiniame ir verslo pasaulyje: netrukus buvo pradėti kurti dar didesni ir daugiau galimybių turintys kalbos modeliai, drastiškai padidėjo investicijos į šią sritį. Daugelyje šalių buvo pradėtas savo nacionalinių DLM kūrimas ir šalia didžiųjų šalių didžiuosius kalbos modelius jau kuria Bulgarija, Graikija, Lenkija, Norvegija, Slovėnija, Suomija, Vengrija, ir kitos. Savo pranešime pristatysiu, kas yra DKM, kokie yra jų sukūrimo etapai, kokie iššūkiai laukia DKM kūrėjų. Žinia, kad beatodairiškai kuriami didieji kalbos modeliai su savimi atsineša ir neigiamų padarinių bei rizikų, todėl savo pranešime paliesiu ir šias temas.

O kaip su lietuvių kalba? Vis dar neturime atviro lietuvių kalbos didžiojo kalbos modelio. Tiesa, artimoje ateityje laukiama nemažo proveržio šioje srityje, nes Lietuvoje kaip ir kitur auga valstybės, mokslo ir verslo susidomėjimas šiomis technologijomis, kuriamos prielaidos didžiojo lietuvių kalbos modelio atsiradimui investuojant į lietuvių kalbos duomenų kaupimą, dalyvaujant tarptautinėse iniciatyvose ir projektuose. Bandysiu atsakyti į klausimą, kodėl šios technologijos itin svarbios mažoms, mažai išteklių turinčioms kalboms, tokioms kaip lietuvių. Savo pranešime motyvuosiu, kodėl visuomenė, valstybė ir verslas turėtų būti suinteresuoti vystyti šias technologijas.


Apie pranešėją:

Andrius Utka yra Lituanistikos katedros docentas ir Vytauto Didžiojo universiteto (Kaunas) Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto (SITTI) vyresnysis mokslo darbuotojas. 2004 m. apgynė daktaro disertaciją Statistinis teksto funkcijų identifikavimas (VDU, Kaunas). 2010–2022 m. vadovavo Kompiuterinės lingvistikos centrui. A. Utka koordinavo daugybę nacionalinių ir tarptautinių mokslinių tyrimų projektų. Šiuo metu, SITTI institute jis vadovauja Kalbos vartosenos tyrimų, išteklių ir technologijų krypties grupei. Jo mokslinių interesų sritys: statistinė teksto analizė, kalbos ištekliai, mašininis mokymasis, automatizuotas vertimas, terminų ištraukimas ir dezinformacijos kalba.